spark
文章平均质量分 83
DaHuangXiao
这个作者很懒,什么都没留下…
展开
-
kafka+sparkstreaming+redis offset使用mysql管理
之前尝试过使用kafka自带的topic进行offset管理的实践但这是kafka0.11才有的内容,目前很多客户都是kafka0.10,因此又去尝试了使用mysql管理,并存入redis直接贴代码了PS:在这里offset没有进行初始化,待补充package main.scalaimport kafka.common.TopicAndPartitionimport kafka.messag...原创 2018-06-03 21:07:41 · 1770 阅读 · 1 评论 -
spark读取avro格式
package scalaimport com.alibaba.fastjson.JSONimport org.apache.avro.generic.GenericRecordimport org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}import org.apache.hadoop.io.NullWritableimpor...原创 2018-05-23 15:44:06 · 3079 阅读 · 0 评论 -
kafka+sparkstreaming 的offset管理
需求:在使用sparkstreaming消费kafka的topic时,对offset进行管理网上资料比较少,而且参差不齐管理的方法也有很多,区别主要在于offset存储在哪里,不同的存储位置意味着不同的存储以及读取方法本篇博客主要记录一下如何通过kafka.consumer.SimpleConsumer这个类对offset进行存储和读取这个类是将offset存储于kafka内部的一个特殊的topi...原创 2018-05-23 00:19:38 · 4192 阅读 · 2 评论 -
kafka+sparkstreaming+hbase
需求kafka中会不断产生用户的操作日志,主要内容为(userid,operation,time),在hbase中存储了(userid,cityid)需要统计每5分钟内不同的城市有过多少次操作思路:1.先处理kafka的用户日志,统计每5分钟会有多少个(userid)2.再通过查询hbase的数据将userid映射为对应的cityid3.此时的数据应该为(time,cityid,1),再做一次re...原创 2018-05-22 11:28:43 · 1168 阅读 · 0 评论 -
spark或sparksql对表进行Join并进行条件统计最后存储为Parquet格式
需求描述有下列表的结构 Emp ( Eno CHAR(4), Ename CHAR(8), Esex CHAR(1) CHECK(Esex IN ('M','F')), EDno CHAR(4) REFERENCES Dept (Dno), PRIMARY KEY (Eno) ...原创 2018-05-21 22:29:01 · 886 阅读 · 0 评论 -
spark或sparksql对表进行Join并将结果存为Avro格式
描述一下需求有个表的结构如下 Emp ( Eno CHAR(4), Ename CHAR(8), Esex CHAR(1) CHECK(Esex IN ('M','F')), EDno CHAR(4) REFERENCES Dept (Dno), PRIMARY KEY (Eno)...原创 2018-05-21 22:15:34 · 861 阅读 · 0 评论 -
spark streaming小实战之kafka读取与存储
本次小实战主要介绍一下spark streaming如何读取kafka数据涉及理论部分在这就不多说了,自己也刚入门先说下需求待处理日志格式为ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/11/29 13:46,上海,上海,210.2.2.6,7038004ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/09/18 08...原创 2018-05-15 23:19:37 · 2416 阅读 · 0 评论