- 博客(4)
- 收藏
- 关注
原创 dolphinscheduler之datax记录
Hive在建表的时候,可以指定分区partition,例如创建分区partition(day=“20150820”,hour=“09”),对应的hdfs文件系统中,相应的表的目录下则会多出/20150820和/09两个目录,且/20150820是/09的父目录。另外需要注意的是,HdfsReader在读取textfile数据时,需要指定字段分割符,如果不指定默认为’,',HdfsReader在读取orcfile时,用户无需指定字段分割符。
2024-04-10 16:40:57 1290 1
原创 数据治理笔记001
企业通过数据治理来挖掘数据背后的巨大商业价值数据治理的三大要害:第一,要定义数据,让抽象的数据变成可读、可理解的信息;第二,要有一个完整的数据地图或数据资源目录,盘活企业的数据资产,方便用户随时找到想要的数据;第三,要做好数据质量管理,提升数据质量并提升数据的使用率。DAMA对数据治理的定义:数据治理是对数据资产管理行使权利和控制的活动集合。
2024-04-10 16:37:49 648
原创 在百度云CentOS下安装Percona-Server
安装包:Percona-Server-5.6.24-72.2-r8d0f85b-el6-x86_64-bundle.tar 安装第三方组件:yum -y install cmake
2018-12-07 01:00:58 1616
原创 Zookeeper学习之集群搭、简单命令、javaAPI
Zookeeper是开源的、分布式的协调服务框架。是Apache Hadoop的子件,适用于绝大部分的分布式集群的管理。 分布式引发的问题: 1.死锁:至少有一个线程占用资源,但是不占用CPU 2.活锁:所有的线程都没有占用资源,但是线程却是在不断的调度占用资源 3.需要引入一个管理节点 4.为了防止入口的单点问题,需要引入管理节点的集群 5.需要在管理节点中选出一个子节点 6.需要确定一套管理算...
2018-12-06 12:51:34 133
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人