Spark Streaming实时流处理学习笔记
Spark Streaming实时流处理学习笔记
一角残叶
人生如逆旅,我亦是行人
展开
-
Spark Streaming实时流处理笔记(1)——Spark-2.2.0源码编译
1 下载源码https://spark.apache.org/downloads.html原创 2018-12-02 16:56:49 · 229 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(11) —— Spark Streming 整合 Flume(1)——push方式
1 基于 pushhttps://spark.apache.org/docs/2.2.0/streaming-flume-integration.html1.1 flume 配置文件flume_push_streaming.conf# Name the components on this agentsimple-agent.sources = netcat-sourcesimple-a...原创 2018-12-07 10:36:25 · 231 阅读 · 0 评论 -
Spark Streaming 项目实战(1)——日志生成脚本
1 功能统计实战课程访问量统计从搜索引擎引流过来的实战课程访问量1.1 python 日志产生脚本原创 2018-12-14 14:51:09 · 342 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(12) —— Spark Streming 整合 Flume(2)——pull方式
1 pullhttps://spark.apache.org/docs/2.2.0/streaming-flume-integration.html1.1 flume 配置文件 flume_pull_streaming.conf# Name the components on this agentsimple-agent.sources = netcat-sourcesimple-age...原创 2018-12-07 12:57:03 · 231 阅读 · 0 评论 -
Spark Streaming 项目实战(2)—— Flume 对接python日志产生器,和Kafka
1 Flume 对接日志产生器1.1 Flume 配置文件streaming_project.confexec-memory-logger.sources = exec-sourceexec-memory-logger.sinks = logger-sinkexec-memory-logger.channels = memory-channelexec-memory-logger.s...原创 2018-12-14 15:56:26 · 522 阅读 · 6 评论 -
Spark Streaming实时流处理笔记(14)—— Spark Streamig 整合 Flume 和 Kafka
1 目标将 log4j 生成的日志输出到 Flume整合 Flume 到 Kafka整合 Kafka 到 Spark Streaming2 日志产生log4j.propertieslog4j.rootLogger=INFO,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender...原创 2018-12-09 15:41:04 · 294 阅读 · 1 评论 -
Spark Streaming 项目实战(12)—— Web层开发
1 Web 层开发1.1 POM 添加依赖<dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib</artifactId> &原创 2018-12-21 15:40:00 · 691 阅读 · 0 评论 -
Spark Streaming 项目实战(3)—— 数据清洗
1 测试数据接收package streamingprojectimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** 使用 Spark Str...原创 2018-12-18 09:45:29 · 1949 阅读 · 1 评论 -
Spark Streaming 项目实战(4)——HBase工具类
1 需求分析今天到现在为止实战课程的访问量,Spaark Streaming 把统计结果存到数据库RDBMS(关系型数据库):MySQL, Oracleday course_id click_count20181218 1 3020181...原创 2018-12-18 15:35:21 · 548 阅读 · 0 评论 -
Spark Streaming 项目实战(6)——数据库访问DAO层方法实现
1 源码CourseClickCount.scalapackage streamingproject.domian/** 实战课程点击数** */case class CourseClickCount(day_course: String, click_count: Long)CourseClickCountDAO.scalapackage streamingproj...原创 2018-12-18 16:01:04 · 334 阅读 · 0 评论 -
Spark Streaming 项目实战(7)—— 将Spark Streaming 处理结果写入 HBase
1 源码清空Hbase 表StatStreamingApp.scalapackage streamingprojectimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, Stre...原创 2018-12-18 16:27:25 · 529 阅读 · 0 评论 -
Spark Streaming 项目实战(8)—— 功能2
1 需求统计今天到现在为止从搜索引擎引流过来的实战课程的访问量1.1 HBase 新建表2 源码CourseSearchClickCount.scalapackage streamingproject.domian/** * @Description: 从搜索引擎过来的实战课程点击数实体类 **/case class CourseSearchClickCount(day...原创 2018-12-18 19:05:08 · 252 阅读 · 1 评论 -
Spark Streaming实时流处理笔记(10) —— Spark Streming 整合 Spark SQL
1 DataFrame and SQL Operationshttps://spark.apache.org/docs/2.2.0/streaming-programming-guide.htmlhttps://github.com/apache/spark/blob/v2.2.0/examples/src/main/scala/org/apache/spark/examples/strea...原创 2018-12-06 23:07:54 · 338 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(9)—— Spark Streaming高级功能
1 高级功能带状态的算子: UpdateStatByKeypackage com.myspark.comimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object StatefulWordCount { def main(args: A...原创 2018-12-06 22:48:12 · 245 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(4)—— 分布式消息队列Kafka
1原创 2018-12-05 12:25:54 · 312 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(5)—— Kafka API 编程
1 新建 Maven工程pom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apac...原创 2018-12-05 14:08:45 · 232 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(6)—— Kafka 和 Flume的整合
1 整体架构2 Flume 配置https://flume.apache.org/releases/content/1.6.0/FlumeUserGuide.html启动kafka kafka-server-start.sh $KAFKA_HOME/config/server.propertiesavro-memory-kafka.conf# Name the components ...原创 2018-12-05 17:08:13 · 279 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(2)—— 实时处理介绍
1 实时和离线计算对比1.1 数据来源离线:HDFS 历史数据,数据量较大实时:消息队列(Kafka)1.2 处理过程离线:Mapreduce实时:Spark(DStream/SS)1.3 处理速度离线:慢实时:快速1.4 进程离线:启动,销毁实时:7x24小时2 实时流处理框架Apache StormApache Spark StreamingI...原创 2018-12-03 19:06:59 · 265 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(7)—— 环境搭建
1 配置Hadoophadoop-env.shexport JAVA_HOME=/usr/apps/jdk1.8.0_181-amd64core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://node1:8020&l...原创 2018-12-06 12:30:08 · 279 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(7)—— Spark Streaming入门(1)
1 Spark Streaming 介绍1.1 特点低延时从错误中高效的恢复可以运行在成百上千的节点能够将批处理、机器学习、图计算等子框架和 Spark Streaming 综合起来1.2 Spark 生态系统2 Spark Streaming 词频统计https://github.com/apache/spark/tree/master/examples/src/main/...原创 2018-12-06 15:20:56 · 262 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(3)——日志采集Flume
1 Flume介绍1.1 设计目标可靠性扩展性管理性1.2 同类产品Flume: Cloudera/Apache,JavaScribe: Facebook ,C/C++(不维护了)Chukwa: Yahoo/Apache,JavaFluentd: RubyLogstash:ELK(ElasticSearch,Kibana)1.3 Flume发展史Cloudera ...原创 2018-12-03 23:10:08 · 424 阅读 · 0 评论 -
Spark Streaming 项目实战(10)—— 可视化
1 构建 Spring Boot 项目删除1.1 新建测试类HelloBoot.javapackage com.sparkstreaming.project.demo;import org.springframework.web.bind.annotation.RequestMapping;import org.springframework.web.bind.an...原创 2018-12-19 15:46:59 · 768 阅读 · 4 评论 -
Spark Streaming实时流处理笔记(13)—— Spark Streamig 整合 Kakfa
1 基于 Receiver1.1 启动 Kafka先启动 zookeeper原创 2018-12-09 09:20:56 · 299 阅读 · 0 评论 -
Spark Streaming实时流处理笔记(8)—— Spark Streaming 核心概念
1 核心概念SparkStreamingDStreams(Discretized Stream )a DStream is represented by a continuous series of RDDsEach RDD in a DStream contains data from a certain interval对 DStream 操作算子,比如 map/flatMap...原创 2018-12-06 18:39:38 · 252 阅读 · 0 评论 -
Spark Streaming 项目实战(11)——获取Hbase表中实战课程的访问次数
1 调整项目结构2 开发应用2.1 POM中添加依赖&amp;lt;repositories&amp;gt; &amp;lt;repository&amp;gt; &amp;lt;id&amp;gt;cloudera&amp;lt;/id&amp;gt; &amp;lt;url&原创 2018-12-19 18:24:20 · 296 阅读 · 0 评论 -
Spark Streaming 项目实战(9)——将项目运行在服务器
1 打包编译修改源码报错[ERROR] D:\Data\JavaProject\sparktrain\src\main\scala\streamingproject\dao\CourseClickCountDAO.scala:6: error: object HBaseUtils is not a member of package streamingproject.utils[I...原创 2018-12-18 19:42:10 · 428 阅读 · 0 评论