- 博客(8)
- 收藏
- 关注
原创 集群资源调度系统 YARN
YARN是一个开源的集群资源调度系统,主要用于在大规模集群中有效地分配和调度计算资源。YARN是Hadoop生态系统中的一个重要组成部分,它作为Hadoop 2.x版本中的资源管理器,取代了Hadoop 1.x版本中的JobTracker和TaskTracker模型。
2024-07-03 14:51:30
874
原创 大数据应用场景及大数据技术体系6大内容
跑流场景和跑批场景的区别、以及HDFS、MapReduce、YARN、Spark、Hive及HBase简述
2024-06-04 15:30:00
1045
1
原创 【数据中台】数据中台应用能力成熟度
数据中台应用能力成熟度分为 统计分析,决策支持,数据驱动,运营优化四个阶段。成熟度越高,数据对业务的支撑能力越强。1.统计分析阶段五个特征:1.企业战略方面:满足业务需求,实现业务过程的流程化,自动化为导向。2.数据形态方面:可能有少量的业务数据积累,但没有积累数据,数据无组织,数据维度单一等。3.数据场景方面:关键数据和指标进行单一维度,简单的统计分析和管理,辅助业务总结。4.数据应用工具方面:该阶段业务报表主要基于系统嵌入式报表模块产出,或系统数据导出后通过execl制作报.
2020-05-26 17:28:17
707
原创 数据汇聚
数据汇聚:打破企业数据的物理孤岛,形成统一的数据中心,为后续数据资产的价值挖掘提供原始材料。1.数据汇聚工具:1.Canal 主要缺点:Server中的Instance(实例)和Client(客户机)之间是一对一消费,不太适合用于多消费和数据分发的场景。2.Sqoop 处理过程定制程度较高,主要通过在命令行中配置参数来调整数据同步操作行为,在用户的一些自定义逻辑和数据同步链路监控方面比较薄弱。并且任务运行完全依赖于MapReduce,功能扩展性方面受到明显的约束和限制。3.DataX .
2020-05-12 09:33:50
4971
原创 win10下Python3.6和Django2.0的安装
1)首先下载Python3.6.5 https://www.python.org/downloads/具体安装过程不做赘述,只需注意一点:在本界面选中最下面的Add Python 3.6 to PATH.这样的话就不用手动配置环境变量。(我的Python3.6,Django2,0和pip10都在D盘)注意:Django不支持python2:2)下载Django压缩文件并且解压到和pytho...
2018-06-15 23:03:26
1353
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人