大数据
凝固的一小块时间
谁说败局已定 我偏力挽狂澜
展开
-
日志采集框架Flume
前言在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图:...原创 2019-12-06 21:35:57 · 170 阅读 · 1 评论 -
大数据第二周汇总
计算框架指实现某项人物或某项工作从开始到结束得计算过程或流程mapreduce计算框架并行计算指一个大的人物拆分成多个小人物,将多个小任务分发到多个节点上,每个节点同时执行计算Hadoop为什么比传统技术方案快1.分布式存储2.分布式并行计算3.节点横向扩展4.移动程序到数据端5.多个数据副本mapreduce核心思想分而治之,先分后和。将一个大的、复杂的工作或人物拆分成...原创 2019-11-16 15:00:20 · 188 阅读 · 1 评论 -
大数据 day03笔记
DataNode作用1、执行数据的读写(响应的是客户端)2、周期性向NameNode做汇报(数据块的信息、校验和)若datanode 10分钟没有向NameNode做汇报,表示已丢失(已宕机) 心跳周期 3秒3、执行流水线的复制(一点一点复制)机架感知实际上需要工程师收到创建一个脚本(python sh ),脚本中记录主机IP和交换机的对应关系。配置的位置是core-site.xml...原创 2019-11-04 21:14:25 · 139 阅读 · 1 评论