大数据平台Spark生态系统
文章平均质量分 54
29DCH
In me the tiger sniffs the rose.
展开
-
Spark简介、环境安装部署及词频统计实例
Spark是一个高性能的分布式计算框架,由于是在内存中进行操作,性能比MapReduce要高出很多.具体的我就不介绍了,直接开始安装部署并进行实例测试首先在官网下载http://spark.apache.org/downloads.html注意要根据你的hadoop版本选择,2.7极以后可以选这个如果选Source Code的话后面启动spark-shell会报这样的错下好解压缩,...原创 2018-10-12 13:05:09 · 430 阅读 · 0 评论 -
Spark Streaming消费Kafka的数据进行统计
流处理平台:这里是第四步的实现:Spark Streaming整合Kafka采用的是Receiver-based,另一种方式Direct Approach,稍作修改就行。package sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org....原创 2018-12-06 13:05:16 · 1233 阅读 · 0 评论 -
使用Spark Streaming完成黑名单过滤
TransformApp.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 黑名单过滤 */object TransformApp { def main(args: Array[Str...原创 2018-11-28 20:53:41 · 337 阅读 · 0 评论 -
使用Spark Streaming完成有状态统计
StatefulWordCount.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 使用Spark Streaming完成有状态统计 */object StatefulWordCount {...原创 2018-11-28 20:36:28 · 264 阅读 · 0 评论 -
Spark Streaming进阶与案例实战
1.updateStateByKey算子的使用import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 使用Spark Streaming完成有状态统计 */object StatefulWordCount { def main(ar...原创 2018-12-01 15:15:07 · 247 阅读 · 0 评论 -
Spark Streaming整合Kafka的两种方式
Maven项目下的pom.xml文件加入如下依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8_2.11</artifac原创 2018-11-30 22:12:46 · 270 阅读 · 0 评论 -
Spark Streaming整合Flume的两种方式
构建Maven项目,在pom.xml文件中加入如下依赖:Push方式整合<!-- Spark Streaming 依赖--> <dependency> <groupId>org.apache.spark&lt原创 2018-11-30 20:17:43 · 240 阅读 · 0 评论 -
大数据学习方法及主要内容
目前来说,大数据的学习核心就是hadoop生态圈及相关的技术。主要的技能树-语言篇:Hadoop本身是用java开发的,所以对java的支持性非常好,所以java是必须的语言。数据挖掘:因为Python开发效率较高所以我们使用Python来进行任务,当然,目前很强大的scala也是一种不错的备选。因为Hadoop是运行在Linux系统上的,所以还需要掌握Linux的知识。学习介绍:学...原创 2018-12-04 14:50:49 · 513 阅读 · 0 评论 -
使用Spark Streaming完成词频统计,并将结果写入到MySQL数据库中
首先在maven工程的pom.xml文件加入以下依赖:<properties> <spark.version>2.2.0</spark.version></properties> <!-- Spark Streaming 依赖--> <dependency> ...原创 2018-11-28 21:38:33 · 760 阅读 · 0 评论 -
使用Spark Streaming整合Spark SQL完成词频统计操作
SqlNetworkWordCount.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, Streamin...原创 2018-11-28 21:14:34 · 543 阅读 · 0 评论 -
Spark Streaming初步总结
详情见Spark编程指南 https://aiyanbo.gitbooks.io/spark-programming-guide-zh-cn/content/spark-streaming/index.htmlhttps://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming/index.htmlhttps://my.o...原创 2018-11-23 12:19:09 · 433 阅读 · 0 评论 -
Spark Streaming核心概念与编程实例
紧接我的上一篇博客 https://blog.csdn.net/CowBoySoBusy/article/details/84348469构建一个 Spark Streaming 应用程序一般来说需要 4 个步骤StreamingContext:1.初始化StreamingContextimport org.apache.spark._import org.apache.spark.st...原创 2018-11-23 19:50:30 · 192 阅读 · 0 评论 -
Spark+Ansj中文分词Scala程序
Spark下四种中文分词工具使用hanLPansjjiebafudannlp推荐使用ansj,速度快而且效果好另外jieba,hanLP效果也不错。具体参考ansj:https://github.com/NLPchina/ansj_segHanLP:https://github.com/hankcs/HanLP我的代码如下,加了scala连接mysql数据库查找、插入操作,添加...原创 2019-02-24 22:01:34 · 1053 阅读 · 0 评论