kafka
郭惠姗
这个作者很懒,什么都没留下…
展开
-
hadoop、kafka、spark的进程挂掉的问题以及解决方案
hadoopnamenode http服务的端口:50070namenode 接收Client连接的RPC端口,用于获取文件系统metadata信息:8020JobHistory Server http服务端口:19888进程:namenode:namenode 相当于一个领导者,负责调度 比如你需要存一个640m的文件 如果按照64m分块 那么namenode就会把这10个块(这里不考虑副本)分配到集群中的datanode上 并记录对于关系 。当你要下载这个文件的时候namenode就知道在原创 2020-08-31 20:26:42 · 1466 阅读 · 0 评论 -
数据仓库之系统数据流程设计
数据加工的整体流程设计如下图:数据源:业务交互数据前端埋点用户行为数据数据走向:业务数据上传到mysql数据库中,有些表需要每天进行更新,从业务服务器上传的数据每天都会有变化,数据库就是便于较少数据的增删改查。最终将数据通过sqoop上传到hdfs,在用sqoop上传时,可能运行时间比较长,例如20多张表需要一个小时才可以完全上传成功。埋点的用户行为数据储存在特定的linux目录中,我设置的是 /tmp/logs 中,启动flume将logfile上传到kafka指定的topic中,再启动f原创 2020-08-20 19:14:57 · 760 阅读 · 0 评论 -
批量启动kafka脚本
群起,关闭kafka脚本一般kafka我们配置3台,在启动kafka时候需要到每个节点上一一启动,所以写个脚本,方便执行。脚本编写 kf.sh#! /bin/bashcase $1 in"start"){ for i in clus10 clus11 clus12 do echo " --------启动 $i Kafka-------" ssh $i "source /etc/profile原创 2020-08-11 19:37:03 · 372 阅读 · 0 评论 -
Incompatible Jackson version: 2.9.8解决方案
在运行spark连接kafka的示例代码的时候,报Incompatible Jackson version: 2.9.8解放方案:版本不兼容,Jackson:是一个专门处理JSON的相关工具包,国外都使用这个包我们下载这个包:jackson-module-scala_2.11-2.9.8.jar;jackson-core网站:https://mvnrepository.com/artifac...原创 2020-02-28 19:40:11 · 941 阅读 · 1 评论