大数据学习
donger__chen
这个作者很懒,什么都没留下…
展开
-
大数据面试题整理
算法部分 1、给定一个大文件(即无法一次性加载到内存中,以下的大文件均为该定义),每行代表一个访问IP,统计出现次数最多的IP。 1)逐行读取数据,并将数据映射(如取模)到N个小文件中; 2)以IP为Key,频率为Value,分别统计每个小文件中每个IP出现的次数; 3)找出每个小文件中出现次数最多的IP; 4)对这N个小文件出现次数最多的IP进行排序,得到最终结果。 2、在1的基础上,求...原创 2020-02-22 22:31:54 · 509 阅读 · 0 评论 -
Flume实例
1.监控数据 官方案例实现 cd ../flume mkdir job cd job vim flume-telnet-logger.conf # example.conf: A single-node Flume configuration # Name the components on this agent #a1=agent1 r1 shuruyuan k1 shuchudi ...原创 2019-08-02 21:11:37 · 121 阅读 · 0 评论 -
shell在集群的所有节点上启动 zookeeper
启动 #!/usr/bin/env bash echo "start zkServer..." for i in master node1 node2 node3[修改为自己的节点] do echo $i ssh $i "source $ZOOKEEPER_HOME/bin/zkServer.sh start" done 就是通过ssh 在其它节点上执行启动操作 关闭 #!/us...原创 2019-08-01 18:15:27 · 311 阅读 · 0 评论