SparkStreaming实战

最新推荐文章于 2024-01-18 02:06:17 发布

岸芷汀兰whu

最新推荐文章于 2024-01-18 02:06:17 发布

阅读量719

点赞数

分类专栏： spark 文章标签： spark stream

本文链接：https://blog.csdn.net/u012432611/article/details/50457296

版权

spark 专栏收录该内容

66 篇文章 0 订阅

订阅专栏

实例1 读取文件

1 演示说明

在该实例中 Spark Streaming 将监控某目录中的文件,获取在间隔时间段内变化的数据,
然后通过 Spark Streaming 计算出改时间段内单词统计数。

2 演示代码

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.StreamingContext._
object FileWordCount {
def main(args: Array[String]) {
val sparkConf = new
SparkConf().setAppName("FileWordCount").setMaster("local[2]")
// 创建 Streaming 的上下文,包括 Spark 的配置和时间间隔,这里时间为间隔 20 秒
val ssc = new StreamingContext(sparkConf, Seconds(20))
// 指定监控的目录,在这里为/home/hadoop/temp/
val lines = ssc.textFileStream("/usr/spark/spark-data/temp/")
// 对指定文件夹变化的数据进行单词统计并且打印
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
// 启动 Streaming
ssc.start()
ssc.awaitTermination()
}
}

3 运行代码

第一步创建监控目录，并写入数据

cd /usr/spark/spark-data/temp/
例如
vi test
a a 
b bb bbb ....

第二步运行程序

这里写图片描述

实例 2:网络数据演示

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

岸芷汀兰whu

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark Streaming实战

AI天才研究院

10-01

1590

作者：禅与计算机程序设计艺术 1.简介 Apache Spark™作为世界上最流行的开源大数据计算框架之一，在近几年越来越受到大家的关注。基于Spark的分布式计算能力和速度的突飞猛进，使其成为许多企业应用中不可或缺的一环。但Spark本身所提供的高级特性如：SQL、Streaming等也带来了一些新

大数据Spark（三十八）：SparkStreaming实战案例三状态恢复扩展

Lansonli（蓝深李）的博客

04-21

2441

实现SparkStreaming程序停止之后再启动时还能够接着上次的结果进行累加。先发送spark,得到spark,1。再发送spark,得到spark,2。再发送spark,得到spark,3。再停止程序,然后重新启动。

参与评论您还未登录，请先登录后发表或查看评论

SparkStreaming实战案例

TU_JCN的博客

07-11

742

1、单词计数 pom.xml配置： <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <scala.version>2.11.8</scala.version> <spark.v

Spark Streaming实战之WordCount计算

xiaoleilei666的博客

03-27

2247

一、需求从TCP Socket数据源实时消费数据，对每批次Batch数据进行词频统计WordCount，流程图如下：二、准备工作本地使用nc命令，利用它向8888端口发送数据（备注：nc是netcat的简称，原本是设置路由器），输入命令如下所示： spark streaming实现逻辑具体代码，如下所示： package com.ml.streaming import org.apache.spark.SparkConf import org.apache.spark.strea

Spark Streaming 实战案例（一)

春华秋实

06-28

2686

本节主要内容本节部分内容来自官方文档：http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operations Spark流式计算简介Spark Streaming相关核心类入门案例 1. Spark流式计算简介 Hadoop的MapReduce及Spark SQL等只能进行离线计算

spark--Spark Streaming实战-★★★★★

qq_46893497的博客

03-03

155

Spark Streaming实战-★★★★★准备工作nc命令pom.xml案例1-简单WordCount案例2-和历史数据进行累加案例3-扩展-重启后的状态恢复案例4-reduceByKeyAndWindow窗口聚合案例5-新闻热搜排行榜准备工作 nc命令后续我们要使用SparkStreaming从网络接收一些数据用来做实时计算那么我们可以使用linux-node01上的socket服务给SparkStreaming发数据如果没有安装nc命令先执行 yum install -y nc

spark streaming实战运用

迷途的菜鸟

11-21

578

简单介绍一下业务场景。门户网站，用户有时会点击一些广告，但是有一些用户可能恶意点击广告，所以需要过滤掉这些用户并保存至黑名单中。然后想实时分析一下这些广告的数据，比如今天一天各个省份各个城市广告的排名，近一个小时的实时排名等。技术点： 1.transform算子的运用。 2.reduceByKeyAndWindow窗口函数的运用。 3.updateStateByKey的运用。 4...

Apache Spark Streaming 实战

点点的博客

04-18

337

Streamming 原理：

Spark Streaming项目实战

06-04

1429

初始实时流处理需求：统计主站每个（指定）课程访问的客户端、地域信息分布地域：ip转换， SparkSQL项目实战客户端：useragent获取， hadoop基础课程实现步骤：课程编号、IP信息、useragent 进行相应的统计分析操作：MR/Spark 项目框架：日志收集： Flume 离线分析：MR/Spark 统计结果图形化展示问题：小时级别 10分钟 ...

Spark Streaming实战应用

热门推荐

岸芷汀兰

01-04

1万+

使用 hiveContext 之前首先要确认以下两点:1 使用的 Spark 是支持 hive 2 Hive 的配置文件 hive-site.xml 已经存在 conf 目录中前者可以查看 lib 目录下是否存在以 datanucleus 开头的 3 个 JAR 来确定,后者注意是否在 hive-site.xml 里配置了 uris 来访问 Hive Metastore。1. 启动 hive

intellijidea连接spark集群

岸芷汀兰

09-24

1万+

今天尝试在intellijidea里连接spark集群，报错： java.lang.ClassNotFoundException: org.apache.spark.examples.SparkPi$$anonfun原来是没有添加jar包，首先要把项目打成jar包，然后在sparkcontext里添加jar包 /* * Licensed to the Apache Software Founda

sparksql性能调优

岸芷汀兰

09-16

6706

性能优化参数代码实例import java.util.List;import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.api.java.JavaSQLContext; import org.apache.spark.sql

Spark读取csv数据

岸芷汀兰

03-14

6080

项目地址一、spark-shell方式$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0IDE方式方式一逗号分隔法方式二参考

运行spark示例Pi可能出现的问题及解决

岸芷汀兰

08-04

4429

今天看了部分Spark的官方文档，spark实战高手之路（4）在IntelliJ中，我尝试运行了SparkPi，整个过程遇到一些问题首先是当我把相关的包导入好后，Run，报错： Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configurat

pyspark初探(一)LearningSpark

岸芷汀兰

03-15

4349

启动pysparkIPYTHON=1 pysparkIPYTHON_OPTS="notebook" pyspark (set IPYTHON=1 pyspark for windows)执行python脚本spark-submit my_script.py初始化sparkcontextfrom pyspark import SparkConf,SparkContext conf = Spark

使用 IntelliJ IDEA 导入 Spark 最新源码

岸芷汀兰

08-07

4319

使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码###准备工作首先你的系统中需要安装了 JDK 1.6+，并且安装了 Scala。之后下载最新版的 IntelliJ IDEA 后，首先安装（第一次打开会推荐你安装）Scala 插件，相关方法就不多说了。至此，你的系统中应该可以在命令行中运行 Scala。我的系统环境如下：Mac OS X（10.9.5） JDK

SparkStreaming实战解析：从理论到实践

"SparkStreaming（下）--SparkStreaming实战.pdf" 本资料主要涵盖了SparkStreaming的实战应用，由石山园撰写，并提供了多个实例来详细解释如何使用SparkStreaming处理实时流数据。SparkStreaming是Apache Spark的一...