BigData Life
文章平均质量分 61
leep-li
这个作者很懒,什么都没留下…
展开
-
SparkStream从kafka读取数据编码问题(Java)
SparkStreaming从kafka读取文件流时(Java),默认是utf-8的,如果源文件的编码不是utf-8,那就会出现乱码现象,但是kafka的官网参数里没有关于编码的参数,不过kafka的源码里面是有的。源码如下:publicvoidconfigure(Mapconfigs,booleanisKey){StringpropertyName=isKey?"key.seri原创 2017-08-19 14:26:19 · 6740 阅读 · 2 评论 -
MVN编译Flume1.7源码时出现下载ua-parses-1.3.0 jar包失败
解决思路:下载ua-parses jar包到本地,然后用mvn命令增加到本地;如果下载因为各种原因还是无法下载,那就就在git上下载ua-parses-1.3.0源码,打jar包,用mvn指定路径。1、进入git,git clone https://github.com/apache/flume.git,下载源码;2、进入前下载的flume目录,执行mvn install原创 2017-11-26 21:56:28 · 1475 阅读 · 2 评论 -
基于SparkStreaming对银行日志处理系列--整体技术框架
基于SparkStreaming对银行日志分析,实时技术架构图通过flume实时采集原日志,送到kafka缓存,SparkStreaming准实时从kafka拿数据,经过ETL、聚合计算送到redis,供前端展示,具体技术及代码见后面博客;除了实时部分,还有离线这一块,技术框架如下:前面都一样,只是通过SparkStreaming ETL后,不聚合计算直接插入hbase,供原创 2017-12-23 11:11:18 · 840 阅读 · 0 评论 -
flume 1.7 TailDir source重复获取数据集不释放资源解决办法
背景:银行日志生产方式一般有两种1)按大小切分:xxx.logxxx.log1 xxx.log2,及最新日志写入.log,原来的.log mv为.log1,.log1 mv为.log2,依次类推,每个日志固定大小(10M、50M之类)。2)按天切分:xxx.log xxx.log-20171224(xxx.log-日期),最新日志写入.log,后面的按照日期备份,基本为每天一个日志。原创 2017-12-26 23:09:45 · 2076 阅读 · 0 评论 -
spark读取kafka数据(两种方式比较及flume配置文件)
Kafka topic及partition设计 1、对于银行应用日志,一个系统建一个topic,每台主机对应一个partition,规则为,flume采集时,同一个应用,数据送到同一个topic,一个主机,送一个partition,这样做是为了同一个日志的数据在一个partition中,顺序不会乱。另,flume配置文件可以配置sink的topic和partition id(xxx.原创 2017-12-27 23:38:13 · 5024 阅读 · 0 评论