![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SPARK
songhao22
这个作者很懒,什么都没留下…
展开
-
spark graphx 教程 join
https://blog.csdn.net/qq_40887813/article/details/90610672原创 2020-05-02 23:22:36 · 284 阅读 · 0 评论 -
Spark集群三种部署模式的区别
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一转载 2018-01-15 23:22:30 · 12731 阅读 · 3 评论 -
SCALA中的MAP与FLATMAP区别
摘自知乎总结:1. map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮) = {去皮苹果,去皮梨子} 其中: “去皮”函数的类型为:A => B 2.flatMap包含两个操作:会将每一个输入对象输入映射为一个新集合,然后把这些新集合连成一个大集合。 {苹果,梨子}.flatMap(切碎) = {苹果碎片1,苹果碎片2,梨子碎片1,梨子碎片2} 其中: “切碎”函数的类型为转载 2018-01-14 16:24:05 · 10666 阅读 · 0 评论 -
Spark 入门实战之实例
转载:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/http://blog.csdn.net/gongpulin/article/details/51534754搭建开发环境安装 Scala IDE搭建 Scala 语言开发环境很容易,Scala IDE 官网 下载合转载 2018-01-03 23:15:38 · 2162 阅读 · 0 评论 -
Kafka 和 Spark Streaming 构建实时数据处理系统
转载自https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice2/引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇转载 2018-01-21 11:50:37 · 1332 阅读 · 0 评论 -
spark+kafka 小案例
转载自https://www.cnblogs.com/zhangXingSheng/p/6646879.html(1)下载kafka的jar包http://kafka.apache.org/downloadsspark2.1 支持kafka0.8.2.1以上的jar,我是spark2.0.2,下载的kafka_2.11-0.10.2.0(2)Consumer代码转载 2018-01-21 11:42:59 · 1391 阅读 · 0 评论 -
Kafka概念入门
转载自https://www.cnblogs.com/intsmaze/p/6386616.html序:如何保证kafka全局消息有序? 比如,有100条有序数据,生产者发送到kafka集群,kafka的分片有4个,可能的情况就是一个分片保存0-25,一个保存25-50......这样消息在kafka中存储是局部有序了。严格说,kafka是无法保证全局消息有序的,没有这个机制,只能局转载 2018-01-21 11:40:55 · 161 阅读 · 0 评论 -
SPARK 日志输出关键信息
来自https://www.cnblogs.com/liugh/p/6909531.html使用spark-submit提交local任务时,会输出很多Info信息:-------------------------------------------Time: 1495788633000 ms----------------------------------------转载 2018-01-21 11:37:42 · 3217 阅读 · 0 评论 -
Spark中的checkpoint作用与用法
转自http://blog.csdn.net/qq_20641565/article/details/76223002 Spark中的checkpoint作用与用法checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spar转载 2018-01-21 11:35:48 · 953 阅读 · 0 评论 -
Spark笔记:RDD基本操作(上)
转自https://www.cnblogs.com/sharpxiajun/p/5506822.html本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用s转载 2018-01-01 21:46:26 · 229 阅读 · 0 评论 -
SPARK TOPK程序
第一种TOPK排序方式整个排序取 TopK 的实现:Case: 输入:文本文件 输出: (158,) (28,the) (19,to) (18,Spark) (17,and) (11,Hadoop) (10,##) (8,you) (8,with) (8,for)算法: 首先实现wordcount,topk实现是以wordcoun原创 2017-05-07 10:31:20 · 467 阅读 · 0 评论 -
SPARK:sortByKey和sortBy 函数讲解
本文转载来源:https://www.iteblog.com/why_not_allow_copy/转载 2017-05-07 10:19:23 · 999 阅读 · 0 评论 -
SCALA下划线_用法
1、作为“通配符”,类似Java中的*。如import org.apache._2、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶数,并乘以2,可以用以下办法:a.filter(_%2==0).map(2*_)3、在元组中,可以用方法_1,_2,_3访问组员。如a._2。其中句点可以用空格替代。4、:_*作为一个整体,告诉编译器你希望将某个参数当作参数转载 2017-05-07 08:58:38 · 273 阅读 · 0 评论 -
SPARK笔记
参考 文章http://dongxicheng.org/framework-on-yarn/spark-scala-writing-application/通过RDD转换算子操作和转换RDD,对于WordCount而言,首先需要从输入数据中每行字符串中解析出单词,然后将相同单词放到一个桶中,最后统计每个桶中每个单词出现的频率,举例如下:1原创 2017-05-04 22:46:19 · 235 阅读 · 0 评论 -
SPARK学习
4个基本例程https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/SCALA基本教程https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/原创 2017-03-26 22:02:00 · 354 阅读 · 0 评论