hadoop
文章平均质量分 54
baiyan_er
这个作者很懒,什么都没留下…
展开
-
hadoop (mapreduce运行原理)
架构执行流程分布式并行计算框架默认情况下,一般情况下是一个map,还有一种情况是这个文件大过map,把文件分成一个一个块计算map有限定最多启动多少个,系统绝定,但有20个进程,而map最多启16个,只能先执行16个在执行4个inputsplit(数据源通过分片,有很多预定好的分割方式)-------map(有多少分片启动多少map 进程)---------record(每个map进程完成分片中的...原创 2018-04-23 21:11:30 · 446 阅读 · 0 评论 -
部署数据环境(flume)
flume连接kafkaflume(日志收集器):通过一个配置文件定义一个代理配置文件:(1).source :从哪里过来(2).sink:数据流向哪里(3)通道:通过通道输出。使用内存传数据比较慢。如果数据传的快过内存,就会堵塞,为了解决瓶颈问题,我们使用kafka,kafka输出的比较块。但是如果通过网络传输就会慢下来。所以这个时候就有另外一办法解决这个问题。就是收集日志,定义一堆分支,集群式...原创 2018-04-23 23:50:22 · 449 阅读 · 0 评论