Spark Java Streaming系列
贾红平
本人喜欢技术,一致从事于大数据搜索推荐系统架构及其相关工作,最近几年开始熟悉人工智能和机器学习领域,擅长高可用高并发系统架构设计..技术的追求从没有停止过..
展开
-
spark stream 应用-结合hdfs
本文章主要通过spark streaming 统计hadoop的文件,实现wordcountimport java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.f...原创 2018-04-16 09:29:28 · 336 阅读 · 0 评论 -
spark stream 应用-结合kafka
本文章主要通过spark streaming结合kafka的两种读取数据形式实现wordcount统计1 基于kafka direct方式实时统计wordimport java.util.Arrays;import java.util.HashMap;import java.util.HashSet;import java.util.Map;import java.util.Set;i...原创 2018-04-16 09:28:00 · 230 阅读 · 0 评论 -
spark stream应用-从flume获取数据
本文章主要实现spark streaming通过两种方式从flume获取数据1 基于pull模式import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java...原创 2018-04-16 09:27:47 · 476 阅读 · 0 评论 -
spark streaming -基于滑动窗口的热点搜索词实时统计
本文章通过企业真实案例,完成基于搜索词的实时统计功能import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.Function;import org.apache...原创 2018-04-16 09:27:26 · 628 阅读 · 0 评论 -
spark streaming -过滤黑名单
通过spark streaming实时统计过滤黑名单,稍微改动一下,可以结合到真实企业案例中import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spa...原创 2018-04-16 09:27:14 · 906 阅读 · 0 评论 -
spark streaming-基于sql实时统计热门产品
本文章主要实现热门商品的top统计,源于真实案例import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;i...原创 2018-04-16 09:27:00 · 814 阅读 · 1 评论 -
spark streaming-基于updatestatebykey全局统计
本文主要通过spark streaming的updatestatebykey进行单词的缓存的全局统计import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import ...原创 2018-04-16 09:26:22 · 539 阅读 · 0 评论 -
spark streaming 项目应用-新闻网站关键指标实时统计
本文主要通过spark streaming+kafka实现新闻网站关键指标的实时统计功能1 页面实时pv2 页面实时uv3 实时用户注册数量4 用户实时跳出数量5 实时热门板块首先需要一个实时数据模拟生成器:import java.text.SimpleDateFormat;import java.util.Date;import java.util.Properties;import ja...原创 2018-04-16 09:26:09 · 1086 阅读 · 0 评论