spark streaming - scala统计hdfs

原创 2018年04月17日 09:56:59

本文章主要通过spark streaming实现hdfs文件的统计

import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

/**
 * @author jhp
  *         spark streaming读取hdfs文件
 */
object HDFSWordCount {
  
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setMaster("local[2]")  
        .setAppName("HDFSWordCount")
    val ssc = new StreamingContext(conf, Seconds(5))
    
    val lines = ssc.textFileStream("hdfs://spark1:9000/wordcount_dir")  
    val words = lines.flatMap { _.split(" ") }  
    val pairs = words.map { word => (word, 1) }  
    val wordCounts = pairs.reduceByKey(_ + _)  
    
    wordCounts.print()  
    
    ssc.start()
    ssc.awaitTermination()
  }
  
}

spark streaming 的wordcount程序,从hdfs上读取文件中的内容并计数

首先说一下如何如何用spark-submit运行example中的NetworkWordCount 程序: 自己新建一个scala文件命名为:NetworkWordCount ,包路径为com.pdl...
  • zhaoyunxiang721
  • zhaoyunxiang721
  • 2015-10-16 08:26:02
  • 2057

spark streaming读取HDFS

今天跑第一spark streaming程序读取HDFS文件,碰到很多坑: 1.HDFS配置的是高可用,在spark程序内设置HDFS文件路径的时候指向的是某个Namenode的地址,会报异常org...
  • cars_star
  • cars_star
  • 2016-11-11 09:52:40
  • 1944

spark流式读取hdfs中数据

#spark-shell scala> spark: 一:流式读取数据  即是不间断实时访问读取数据 import org.apache.spark._ import org.apache....
  • xiaoshunzi111
  • xiaoshunzi111
  • 2016-11-04 16:56:32
  • 3774

scala实现单词统计(hdfs上)

scala实现单词统计(hdfs上)
  • high2011
  • high2011
  • 2016-06-04 16:26:15
  • 1148

spark streaming 写hdfs问题

spark streaming 里面在做 foreach 操作时要注意数据与节点与进程「jvm」之间的关系;「这一点往往大家比较容易混淆」 我总结了一下,供大家参考 dstream.for...
  • leone911
  • leone911
  • 2017-06-07 14:06:09
  • 426

实时计算实践(spark streaming+kafka+hdfs)

一直在研究大数据处理方向的各种技术和工具,但没有真正用于实践中,恰好目前风控措施转向,需要实施“在线+离线”的双线防控措施,遂在调研查阅相关文档后,决定从零开始构造(数据挖掘转工程开发,思维转变是关键...
  • sinat_29508201
  • sinat_29508201
  • 2016-09-19 20:35:23
  • 4483

spark streaming 写入db,hdfs

转http://blog.csdn.net/zhong_han_jun/article/details/50813981package main.javaimport java.sql.Connect...
  • mlljava1111
  • mlljava1111
  • 2016-03-21 10:57:49
  • 2773

Spark之Streaming实时监听Hdfs文件目录

应用场景:我们使用Streaming实时监听指定的Hdfs目录,当该目录有新的文件增加会读取它,并完成单词计数的操作。 这里和上一篇的差别就是:上一篇用的是socketTextStream而这里用的...
  • young_so_nice
  • young_so_nice
  • 2016-06-10 22:32:41
  • 6738

Spark Streaming实战对论坛网站动态行为pv,uv,注册人数,跳出率的多维度分析

论坛数据运行代码自动生成,该生成的数据会作为Producer的方式发送给Kafka,然后SparkStreaming程序会从Kafka中在线Pull到论坛或者网站的用户在线行为信息,进而进行多维度的在...
  • m0_37739193
  • m0_37739193
  • 2017-07-06 17:41:43
  • 2056

java,scala之spark streaming 版本的单词统计(通过监听端口)

ubuntu安装netcat Ubuntu上默认安装的是netcat-openbsd,而不是经典的netcat-traditional.  网上例子很多都是以netcat-traditiona...
  • zwyjg
  • zwyjg
  • 2017-01-08 22:20:29
  • 1019
收藏助手
不良信息举报
您举报文章:spark streaming - scala统计hdfs
举报原因:
原因补充:

(最多只允许输入30个字)