实时计算部分代码开发
1.首先我们来说一下cdh搭建flume
flume非常的简单,直接cdh就可以集成了,不多赘述
用cdh非常的简单,接下来说一下kafka的集成吧,而kafka 则相对比较麻烦点,需要下载kafka的服务描述jar包
2.再来说一下cdh搭建kafka
我是参考如下文章的。
http://www.cnblogs.com/jechedo/p/5122531.html
这篇文章可以解决很多问题。
https://wenku.baidu.com/view/b95550854128915f804d2b160b4e767f5acf80e6.html
首先下载
http://archive.cloudera.com/kafka/parcels/latest/
放到cdh-server节点上的目录 /opt/cloudera/csd/ 下
然后,
下载jar文件。
http://archive.cloudera.com/csds/kafka/
jar文件放到目录 /opt/cloudera/csd
其他文件放到目录
/opt/cloudera/parcel-repo
千万别忘了main文件改一下名字提交一下,上传就可以了,另外sha1改成sha哦。。。
然后把集群的所有组件停一下,服务也停一下之后重启server/opt
sudo service cloudera-scm-server restart
然后添加服务了。。。
如果配置了mirrorsMaker的情况下,需要配置
node1:9092,node2:9092,node3:9092
Heap dump file created [14048639 bytes in 0.099 secs]
#
# java.lang.OutOfMemoryError: Java heap space
# -XX:OnOutOfMemoryError="/usr/lib64/cmf/service/common/killparent.sh"
# Executing /bin/sh -c "/usr/lib64/cmf/service/common/killparent.sh"...
看到了吧,java空间不够,women去改一下。
但是好像还有错误
看一下完整日志的情况。。
这个应该是白名单的关系,请注意配置kafka的mirrorMaker
Topic Whitelist
node1:9092,node2:9092,node3:9092
这样就可以了很舒服
卡夫卡已经完成了
各项组件配置完成,接下来就要开始搞一个demo了,毕竟后面要实时处理数据的嘛。。。