Spark
沙拉控
这个作者很懒,什么都没留下…
展开
-
Spark-wordcount个人解析
学了大半年的数据开发,到今天才发现对wordcount的理解还不是很深刻,本来想在笔记上写一些心得发现太麻烦,于是在csdn上面开通博客,写给自己,方便查看。首先是代码:object Test4 { def main(args: Array[String]): Unit = { val conf=new SparkConf() conf.setAppName(s"${this....原创 2018-04-24 17:39:14 · 242 阅读 · 0 评论 -
Spark-SparkSQL与Hive整合
我们在做Spark开发的时候有时候需要用SparkSQL将数据写入Hive表中,今天就来看看SparkSQL与Hive的整合。SparkSQL就是借助的Hive构建的数据仓库。一、首先要配置Hive-site.xml。<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?&g...原创 2018-05-10 22:14:43 · 4859 阅读 · 1 评论 -
Spark-Task not serializable错误解析
在学习SparkStreaming的时候偶然出现的一个问题,先看下面一段代码:import org.apache.log4j.{Level, Logger}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}/** * ...原创 2018-05-17 15:33:03 · 12368 阅读 · 1 评论 -
Spark-SparkStreaming
今天介绍一下Spark的实时计算框架--SparkStreaming。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。特点:低延时,高吞吐量,高容错性,支持hadoop和spark生态圈。 在大数据的实时流方面有两个主要的工具,一个是Storm,另一个就是S...原创 2018-05-18 10:59:40 · 397 阅读 · 0 评论 -
Spark-SparkStreaming与Kafka整合
一、SparkStreaming读取Kafka的两种模式:1、Receiver(实时读取)通过zookeeper来连接kafka队列,使用Kafka的高层次Consumer API来实现的。不过这种方式是先把数据从kafka中读取出来,然后缓存在内存,再定时处理。如果这时候集群退出,而偏移量又没处理好的话,数据就丢掉了,存在程序失败丢失数据的可能。1.2之后引入spark.streaming.re...原创 2018-05-18 16:32:41 · 478 阅读 · 0 评论 -
Spark-map和flatmap的区别
这是一个常见的面试题,可是到现在我只会用map,并不会用flatmap,这二者到底有什么区别呢?觉得类似问题首先要查阅他们二者API的异同,这也是以后学习的一种方法,首先看map的API:def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cleanF = sc.clean(f) new MapPartition...原创 2018-05-07 09:23:30 · 930 阅读 · 0 评论 -
Spark-SparkSQL读写方法
这里用Spark1.6,演示SparkSQL的读写功能。一、DataFrame:有列名的RDD首先,我们知道SparkSQL的目的是用sql语句去操作RDD,和Hive类似。SparkSQL的核心结构是DataFrame,如果我们知道RDD里面的字段,也知道里面的数据类型,就好比关系型数据库里面的一张表。那么我们就可以写SQL,所以其实这儿我们是不能用面向对象的思维去编程的。我们最好的方式就是把抽...原创 2018-05-08 15:35:15 · 2808 阅读 · 0 评论