![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 84
tengkong22
这个作者很懒,什么都没留下…
展开
-
数据湖数据治理
《基于数据湖架构下的数据治理体系》数据湖数据治理数据湖的数据治理包括元数据的管控、数据资产目录、主数据管控、数据服务、数据全生命周期管理、数据质量提升及隐私与安全管理。(1)元数据的管控 传统的数据仓库将数据存储在关系表中,而数据湖则使用平面结构。每个数据元素被分配唯一标识符,并用一组元数据标签进行标记。这就是说,数据湖没有数据仓库那么结构化。 设计元数据标准及采集方案、元数据应用、管理流程等,形成企业级数据资源目录与全链式数据流通追踪,实现对企业数据资源的清晰堂握...原创 2021-11-16 15:17:17 · 2975 阅读 · 0 评论 -
hbase创建solr索引的超时问题
本次记录一下hbase创建solr二级索引出现的一些问题,传统比较保险的一种做法就是通过java API读取hbase中数据,同时创建到solr中。集群是五台服务器,对于几亿条的数据的数据全表扫描还是很困难的。试过通过列中的时间进行过滤,都会有超时情况出现。rowkey的设计通过几个唯一的字段拼接而成的,分隔符为“|”。首位防止出现热点问题进行hash值处理,取账号字段hash值的最后两位。...原创 2019-03-15 10:27:28 · 541 阅读 · 0 评论 -
hadoop集群慢盘故障
问题描述:集群节点pbigdata1出现慢盘故障(系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警。)平台为华为大数据平台 本以为是系统网络原因导致的故障,顾将系统告警插除。后续再次出现告警,导致集群中组件出现故障。先是ZOOKEEPER出现故障,后出现集群平衡状态异常。若发生此告警,...原创 2019-03-08 10:18:33 · 1257 阅读 · 0 评论