大数据
文章平均质量分 63
AAEllisonPang
日拱一卒无有尽,功不唐捐终入海.
展开
-
数据治理的意义
11. **支持数据生命周期管理**:从数据的创建、存储、使用到销毁,确保数据在整个生命周期中的有效管理。9. **促进数据共享和集成**:在确保安全和合规的前提下,促进不同系统和组织间的数据共享。8. **支持业务决策**:提供准确和及时的数据支持,帮助管理层做出更好的业务决策。5. **优化数据价值**:通过有效的数据治理,提高数据的商业价值和决策支持能力。1. **提高数据质量**:确保数据的准确性、一致性、完整性和可靠性。6. **降低风险**:减少因数据问题导致的法律、财务和声誉风险。原创 2024-10-15 17:14:46 · 126 阅读 · 0 评论 -
数据治理中的核心 元数据
数据治理的前提是要有数据,并且要求数据类型全、量大,并尽可能的覆盖数据流转的各个环节,而元数据是“所有系统、文档和流程中包含的所有数据的语境。同时,要对元数据进行权限管理,规范权限的管理流程(元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程等)。业务元数据描述的对象,是数据的业务含义、业务规则等。2、元数据&元数据管理的重要性在表格中,“175”是实体数据,而业务元数据、技术元数据、操作元数据、管理元数据,分别从各自的角度描述了“175”这个数字,所以,它们都在元数据的范畴内。原创 2024-10-12 10:07:01 · 1403 阅读 · 0 评论 -
mysql linux 安装
使用初始密码登录mysql服务(初始为空,回车登录)并修改密码。1.3 查找mysql残留包,有则删除,没有则忽略。若有可用 rpm -e 安装包 --nodeps。# wget下载或者本地下载后上传(32/64)# 临时密码保存在errlog中,获取临时密码。3.创建mysql配置文件my.cnf。7.启动mysql服务 并修改密码。1.6 创建mysql相关目录。# 注册开机启动服务(可选)8.mysql服务启动关闭。# 启动mysql服务。#重命名为mysql。6.初始化mysql。原创 2024-10-10 11:29:31 · 1275 阅读 · 0 评论 -
ClickHouse 的 MergeTree 引擎有哪些性能优势?
索引是稀疏的,这意味着不是每行数据都有一个索引条目,而是每隔一定的数据量(由 index_granularity 控制)创建一个索引条目,这样可以在保持索引较小的同时快速定位数据。11. 数据标记和稀疏索引的协同工作:MergeTree 使用数据标记文件(.mrk)和稀疏索引协同工作,快速定位到具体的数据块,提高查询效率。6. 多版本并发控制(MVCC):MergeTree 支持数据的多版本控制,允许旧数据版本在后台合并过程中存在,而不会影响新数据的写入和查询。原创 2024-09-30 11:13:37 · 820 阅读 · 0 评论 -
Clickhouse分布式表初体验
需要注意的是,分布式表的写入操作默认是异步的,可能会在短时间内造成数据的不一致性。这里`ck_cluster_name`是集群名称,`test_db`是数据库名称,`city_local`是本地表名称,`rand()`是一个分片键,用于数据的随机分布。使用`Distributed`引擎创建一个分布式表,它不会存储数据,而是将查询和写入操作代理到本地表。分布式表本身不支持直接的`UPDATE`和`DELETE`操作,这些操作需要在本地表上执行。这会返回所有分片上的`city_all`表的数据。原创 2024-09-30 10:03:04 · 951 阅读 · 0 评论 -
事实表分为三类:事务事实表,周期快照事实表,累计事实表
维度建模中,事实表分为三类:事务事实表,周期快照事实表,累计事实表,他们维度一致,但功能要求和描述的业务事实存在巨大差异。原创 2024-09-30 09:49:29 · 471 阅读 · 0 评论
分享