Spark Scala Streaming系列
贾红平
本人喜欢技术,一致从事于大数据搜索推荐系统架构及其相关工作,最近几年开始熟悉人工智能和机器学习领域,擅长高可用高并发系统架构设计..技术的追求从没有停止过..
展开
-
spark streaming - scala统计hdfs
本文章主要通过spark streaming实现hdfs文件的统计import org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Seconds/** * @author jhp * spark st...原创 2018-04-17 09:56:59 · 365 阅读 · 0 评论 -
spark streaming scala-统计热门产品
本文主要通过spark streaming实现top的热门产品统计import org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Secondsimport org.apache.spark.sql.Rowimport o...原创 2018-04-17 09:56:45 · 302 阅读 · 0 评论 -
spark streaming scala 过滤黑名单
本文章主要通过spark streaming实时过滤黑名单import org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Seconds/** * @author jhp * spark stream...原创 2018-04-17 09:56:40 · 417 阅读 · 0 评论 -
spark streaming scala-updateStateByKey 进行key的累加统计
updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加 在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步: 1) 定义状态:可以是任意数据类型 2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。 对于有状态操作,要不断的把当前和历史的时间切片的RDD累加计算,...原创 2018-04-17 09:56:33 · 498 阅读 · 0 评论