大数据
qq37755661
这个作者很懒,什么都没留下…
展开
-
java实现kafka整合spark streaming完成wordCount,updateStateByKey完成实时状态更新
引入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>${spark.version}</version...原创 2018-03-23 14:22:30 · 328 阅读 · 0 评论 -
分布式日志收集框架flume实战
实战一:从指定网络端口采集数据输出到控制台flume框架架构Source:指定数据源,有NetCat TCP(项目用到),kafka,JMS,Avro,Syslog等等Channel:数据管道,有Kafka,Memory,File等等Sink:日志数据存放,有Avro,HBase,Hive,Kafka,ElectricSearch,HTTP等等快速入门配置a1.sources = r1a1.si...原创 2018-03-19 22:59:00 · 284 阅读 · 0 评论 -
java,spark实现黑名单过滤
/** * java,spark实现黑名单过滤 */public class BlackListFilter { public static void main(String[] args){ SparkConf conf = new SparkConf().setAppName("Simple Application").setMaster("local[2]")...原创 2018-03-24 15:03:50 · 1247 阅读 · 0 评论 -
java实现spark算子combineByKey
/** * createCombiner: combineByKey() 会遍历分区中的所有元素,因此每个元素的键要么还没有遇到过,要么就 和之前的某个元素的键相同。如果这是一个新的元素, combineByKey() 会使用一个叫作 createCombiner() 的函数来创建 那个键对应的累加器的初始值 mergeValue: 如果这是一个在处理当前分区之前已经遇到的原创 2018-03-24 17:32:51 · 489 阅读 · 0 评论