一路狂飚飚-CSDN博客

原创 Python 中的集合（set）知识大全

集合（set）是一个无序、元素唯一、可变的数据结构。可以理解为“没有重复元素的列表”。✅ 特点：无序（没有索引，不能像列表那样用 [0] 访问）元素唯一（自动去重）可变（可以增删元素）支持数学集合运算（交、并、差、对称差）

2025-10-09 22:39:54 800

原创数据库-01MYSQL-002MySQL5.7错误连接未释放导致数据库连接失败

2、使用mysqladmin flush-hosts 命令清理一下hosts文件（不知道mysqladmin在哪个目录下可以使用命令查找：whereis mysqladmin）；① 进入Mysql数据库查看max_connection_errors： show variables like ‘%max_connection_errors%’;② 修改max_connection_errors的数量为1000： set global max_connect_errors = 1000;

2024-10-22 14:15:16 375

原创 01CDGP备考-001CDGP认证考试分值划分

设计题：2 道，20分。论述题：4 道，40分。单选题：10道，10分。多选题：15道，30分。考试时间：130分钟。设计题：1道,10分。论述题：1道,10分。论述题：1道,10分。设计题：1道,10分。论述题：1道,10分。论述题：1道,10分。

2024-10-12 13:08:01 623 1

原创数据库-01MYSQL-001MySQL知识点查漏补缺

mysql数据库知识点锦集

2024-10-12 09:10:18 392

原创数据治理006-数据标准的管理

数据标准的权威定义可以参考一些国际标准组织和权威机构的定义，以下是两个常用的权威定义DAMA是一个权威的数据管理专业组织，根据 DAMA 数据管理知识体系（DAMA-DMBOK），数据标准被定义为：“数据标准是用于定义、管理和控制数据的一致性和质量的规范、指南和规则。这些标准包括数据定义、数据格式、数据命名和数据编码等方面。在GB/T 18391（ISO/IEC 11179）中，有一组属性规定其定义、标识、表示和允许值的数据单元，也称为数据元素。

2024-10-02 19:13:04 2047

原创数据治理005-血缘关系

厘清数据的血缘关系，就是厘清数据之间的上下游来源去向关系。企业构建全面准确的全链路数据血缘视图，就可以找出数据上下游的应用方，加快数据部门对业务数据报错的debug速度，降低企业决策的失误；也可以及时对长期无用的数据库或报表进行下线处理，节省数据管理成本。数据集成工具：FineDataLink：一款数据集成工具。它专注于帮助企业进行数据集成和同步，确保数据的高效流动和一致性。通过FineDataLink，企业能够将来自不同数据源的数据整合在一起，建立起完整的数据血缘关系。

2024-09-27 23:35:43 2222

原创数据治理003-数据域

数据域

2024-09-27 00:39:26 1338

原创数据治理004-数据仓库中数据域和主题域的区别

数据域和主题域的区别

2024-09-27 00:37:18 1955

原创数据治理002-数据治理领域最容易混淆的16组术语概念辨析

工商管理硕士，具有20年的特大型集团企业IT咨询服务和数据治理行业工作经验，近10年专注数据治理及标准化、数据架构、数据平台、智能工厂等咨询工作，为中国石化集团、中国中化集团、中国兵器工业集团、中国航天科工集团、中国核工业集团、国投集团、南方电网、中国外运股份、国家电投集团、延长石油集团中国广核、中国一重集团、哈电集团、恒力集团等100余家国内及世界500强集团企业提供数据治理相关咨询服务。包含：数据架构、主数据、元数据、时序数据、数据质量、数据安全、数据资源目录等内容。构造类型包括枚举、结构体、集合等。

2024-09-25 10:55:04 1744

原创数据治理002-信创

信创，即信息技术应用创新产业，这个词最早来源于“信创工委会”（全称是信息技术应用创新工作委员会），是在2016年由24家专业从事软硬件关键技术研究及应用的国内单位共同发起成立的一个非营利性社会组织。促进信息技术和网络安全的发展，保护个人和企业数据免受泄露威胁，推动国产操作系统等关键技术的发展，以及通过自主可控的技术和产品保障国家数字经济的持续稳定发展和国家安全。首先，信创产业的发展被视为中国未来发展的关键，其产品需求量的持续上升反映了其在信息技术基础领域的重要性，特别是在信息安全和自主可控性方面。

2024-09-25 10:01:23 359

原创数据治理001-主题域

主题域的含义、定义、作用、划分

2024-09-25 00:29:46 1822

原创数据治理的9个主题及其作用

数据治理的9大主题及作用

2024-09-24 22:55:21 553

原创 mongodb 安装教程

mongodb 安装教程：MONGODBHOMEbinPATH新建并修改配置文件。

2024-09-19 22:53:12 1278

原创 centos7下jdk17安装教程

jdk安装部署

2024-05-10 17:11:10 545

原创 Linux环境快速部署mysql5.7

centos7下快速部署mysql5.7

2024-05-10 16:49:49 342

原创 DAMA数据管理知识体系指南》12—第12章元数据管理知识点记录

元数据管理

2024-01-24 00:19:48 2100

原创《DAMA数据管理知识体系指南》05—第5章数据建模和设计知识点记录

DAMA数据建模设计

2024-01-15 01:03:32 1984

原创《DAMA数据管理知识体系指南》04—第4章数据架构知识点记录

数据架构

2023-12-28 12:47:45 1740

原创 linux-awk-案例100例

awk案例练习100例001三级目录002三级目录003三级目录004三级目录005三级目录006三级目录007三级目录008三级目录009三级目录010三级目录011三级目录012三级目录013三级目录014三级目录015三级目录016三级目录017三级目录018三级目录019三级目录020三级目录021三级目录022三级目录023三级目录024三级目录025三级目录026三级目录027三级目录028三级目录029三级目录030三级目录031三级目录032三级目录033三级目录034三级目录035三级目录

2022-01-18 16:26:28 3755 1

原创 linux-正则表达式001-空格表示

空格的表示方法：[[:space:]]

2022-01-14 23:16:20 1467

原创 linux-sed-案例100例

sed案例100例二级目录1.三级目录2.三级目录3.三级目录4.三级目录5.三级目录6.三级目录7.三级目录8.三级目录9.三级目录10.三级目录11.三级目录12.三级目录13.三级目录14.三级目录15.三级目录16.三级目录17.三级目录18.三级目录19.三级目录20.三级目录21.三级目录22.三级目录23.三级目录24.三级目录25.三级目录26.三级目录27.三级目录28.三级目录29.三级目录30.三级目录31.三级目录32.三级目录33.三级目录34.三级目录35.三级目录36.三级目录

2022-01-10 13:54:08 2803

原创 linux-文件读、写、执行权限

ypy@ubuntu:~$ ls -ldrwxr-xr-- 2 ypy ypy 4096 Nov 30 18:33 Desktop/drwxr-xr-- 2 ypy ypy 4096 Nov 30 18:33 Documents/drwxr-xr-- 2 ypy ypy 4096 Dec 1 16:01 Downloads/-rwxrwxr-- 2 ypy ypy 4096 Feb 8 19:59 exercise-rw-rw-r-- 2 y.

2022-01-05 16:33:57 361

原创 linux-三剑客（sed、awk、grep）

文本处理工具，均支持正则表达式引擎grep：文本过滤工具。sed：流编辑器；文本编辑工具。awk：linux的文本报告生成器，linux上是gawkgrep语法grep [options] [pattern] file命令参数匹配模式文件数据 -i ： ignorecase，忽略字符的大小写 -o : 仅显示匹配到的字符串本身 -v :

2022-01-05 08:47:31 827

原创 linux-快捷键

linux快捷键ctrl + a 移动到行首ctrl + e 移动到行尾ctrl + u 删除光标之前的字符ctrl + k 删除光标之后的字符ctrl + l 清空屏幕终端内容，同于clear

2022-01-04 21:25:08 657

原创 java学习-批量查看多个文件夹下多个xls格式的excel文件

windows下目录展示执行命令：dir /B/SE:\rs\2017E:\rs\2018E:\rs\2019E:\rs\2017\已支付_201701.xlsE:\rs\2017\已支付_201702.xlsE:\rs\2017\已支付_201703.xlsE:\rs\2017\已支付_201704.xlsE:\rs\2017\已支付_201705.xlsE:\rs\2017\已支付_201706.xlsE:\rs\2017\已支付_201707.xlsE:\rs\2017\已支付_

2021-12-27 16:10:20 582

原创 linux-shell-批量查看多个目录下多个csv文件的行数

linux-shell-批量查看多个目录下多个csv文件的行数

2021-12-27 15:55:57 1386

原创 mysql学习-linux环境-csv文件批量入mysql库

将多个目录下的csv文件批量导入到mysql数据库中

2021-12-27 15:51:56 1205

原创 Hadoop003-Hadoop的I/O操作

1、数据完整性重点词汇1、校验和（checksum）2、复本因子（replication factor）3、一系列datanode组成的管线4、fs -checksum5、distcp2、压缩文件压缩优点：1.减少存储文件所需要的磁盘空间。2.加速数据在网络和磁盘上的传输。执行命令：1.创建一个名为file.gz的压缩文件： %gzip -1 file2.将file.gz文件解压成file文件命令：%hadoop FileDecompressor.file.gz3.Compres

2021-11-29 16:13:35 1282

原创 Hadoop002-hdfs架构

1.名字节点（namenode）可以看做是分布式文件系统中的管理者，它1负责管理文件系统命名空间、集群和数据块复制等。2.数据节点（datanode）是文件存储的基本单位，它以数据块的形式保存了HDFS中文件的内容和数据块的数据校验信息。3.客户端和名字节点、数据节点通信，访问hdfs文件系统，操作文件。在一个hdfs中，有一个名字节点和一个第二名字节点，典型的集群有几十到几百个数据节点，甚至几千上万节点；而客户端一般情况下，比数据节点的个数还多。名字节点和第二名字节点、数据节点和客户端的关系如下图

2021-11-22 16:47:31 982

原创 Hadoop001-combiner作用。

1.combiner函数可以帮助减少mapper和reducer之间的数据传输量。2.map到reduce需要不同map上的数据跨节点传输数据。

2021-11-22 09:25:49 578

原创 Hive分桶之BUCKET详解

Bucket1.对于每一个表（table）或者分区（partition）， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。2,把表（或者分区）组织成桶（Bucket）有两个理由：（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-

2021-09-17 16:50:54 1825

原创 hive中常见的谓词操作符/比较符号

hive中

2021-09-15 21:30:37 341

原创 hive数据从库导出文件到文件夹

1.如果数据文件恰好是用户需要的格式，直接拷贝文件夹或者文件hadoop fs -cp source_path target_path2.使用hql语句来实现数据导出。insert overwrite into directory '/tmp/...'select id,name,salary from employees;

2021-09-09 09:26:25 360

原创磁盘性能指标—IOPS、吞吐量及测试

磁盘性能指标—IOPS、吞吐量及测试IOPS、吞吐量磁盘服务时间最大IOPS的理论计算方法IOPS (Input/Output Per Second)即每秒的输入输出量(或读写次数)，是衡量磁盘性能的主要指标之一。IOPS是指单位时间内系统能处理的I/O请求数量，一般以每秒处理的I/O请求数量为单位，I/O请求通常为读或写数据操作请求。IOPS、吞吐量随机读写频繁的应用，如小文件存储(图片)、OLTP数据库、邮件服务器，关注随机读写性能，IOPS是关键衡量指标。顺序读写频繁的应用，传输大量连续数据，

2021-07-12 17:08:19 9511

原创 linux中jdk安装/java环境安装

第一步首先下载java jdkjdk-8u144-linux-x64链接：https://pan.baidu.com/s/1uvSB_7JP037AdZJPDdGF6A提取码：mdat然后使用工具将文件传输到linux上然后将tar.gz解压到对应的目录 tar zxvf jdk-8u151-linux-x64.tar.gz -C /opt/module然后将jdk配置到/etc/profileexport JAVA_HOME=/opt/module/jdk1.8.0_151export

2021-07-07 15:25:35 154

原创 linux中解压tar.gz或zip类型的文件到具体文件夹

将文件解压到指定的目录中tar zxvf tmp.tar.gz -C /tmp在Linux系统的维护、管理中，tar命令是一个使用频率很高的命令，tar命令的功能主要是将众多文件打包成一个tar文件并压缩，并且能保持文件的权限属性。tar其实最开始是用来做磁带备份存盘的，tar是tape archive的简称。后面扩展到不仅仅局限于磁带备份存盘。也能存放到文件系统中。tar命令版本众多，下面整理了一些常用的参数，具体以实际版本为准...

2021-07-07 15:08:18 3764

原创 Oracle002-add_months函数和trunc函数

oracle函数oracle add_months函数oracle trunc 函数oracle add_months函数add_months 函数主要是对日期函数进行操作，举例子进行说明add_months 有两个参数，第一个参数是日期，第二个参数是对日期进行加减的数字(以月为单位的)如：3个月以后的时间，可以用下列语句select add_months(sysdate,3) from dual; 3个月以前的时间，可以用下列语句select add_months(sysdate,-3)

2021-07-01 16:18:21 481

原创 Oracle001-给表以及表字段添加中文名注释

给表添加注释：comment on column 表名.字段名 is '注释内容';给字段添加注释：comment on table 表名 is '注释内容';备注：表名和字段名使用双引号

2021-07-01 14:41:57 2202 1

转载数据库负载均衡

数据库负载均衡负载均衡技术1、实现原理2、实现多据库数据同步案例：3、优缺点负载均衡技术负载均衡集群是由一组相互独立的计算机系统构成，通过常规网络或专用网络进行连接，由路由器衔接在一起，各节点相互协作、共同负载、均衡压力，对客户端来说，整个群集可以视为一台具有超高性能的独立服务器1、实现原理实现数据库的负载均衡技术，首先要有一个可以控制连接数据库的控制端。在这里，它截断了数据库和程序的直接连接，由所有的程序来访问这个中间层，然后再由中间层来访问数据库。这样，我们就可以具体控制访问某个数据库了，然后还

2021-07-01 09:06:39 3352

转载 MPP数据库初识

MPP数据库初识一级目录二级目录三级目录什么是MPP？MPP架构特征MPPDB架构什么是MPP数据库？MPP数据库的使用场景？MPPDB、Hadoop与传统数据库技术对比与适用场景一级目录二级目录三级目录什么是MPP？MPP (Massively Parallel Processing)，即大规模并行处理。简单来说，MPP是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。MPP架构特征任务并行执行;数据分布式存储(

2021-06-30 09:31:20 23345 1

AnyOffice.exe

空空如也