- 博客(10)
- 资源 (3)
- 收藏
- 关注
原创 machine learning with spark (1)
1.广播变量(broadcast variable)为只读变量,它由运行SparkContext的驱动程序driver创建后发送给会参与计算的节点。对那些需要让各工作节点高效地访问相同数据的应用场景,比如机器学习,这非常有用。2.collect函数是一个Spark执行函数,它将整个RDD以Scala(Python或Java)集合的形式返回给驱动程序driver所在节点。通常只在需将结果
2017-04-08 19:24:52 421
原创 Learning Spark: lightning-fast big data analysis (2)
1. driver进程始终对应用中所有的executor进程有完整的记录。每个executor进程代表一个能够处理任务和存储RDD 数据的进程。2.Spark driver程序会根据当前的executor节点集合,尝试把所有任务基于数据所在位置分配给合适的executor进程。当任务执行时,executor进程会把缓存数据存储起来,而driver进程同样会跟踪这些缓存数据的位置,并且利
2017-01-19 15:49:50 831
原创 数值RDD的操作算子
Spark 对包含数值数据的RDD 提供了一些描述性的统计操作。Spark 的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些统计数据都会在调用stats() 时通过一次遍历数据计算出来,并以StatsCounter 对象返回。
2017-01-19 15:33:03 588
原创 Spark wordcount - Python, Scala, Java
基于Spark实现的Python, Scala, Java三个版本的、经典的分布式单词计数代码。1. Scalaval input = sc.textFile("hdfs://...")val words = input.flatMap(x => x.split(" "))val result = words.map(x => (x, 1)).reduceByKey((x,
2016-12-13 17:46:46 460
原创 Learning Spark: lightning-fast big data analysis (1)
1. Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。2.转化操作和行动操作
2016-11-20 11:40:39 1036
原创 programming in Scala 学习(三)
(22-33)1. 定义具有unapply或unapplySeq名称的方法的对象,被称为抽取器,前者对应固定个数的入参,后者对应变参。抽取器的目的是为了匹配并分解值,它与样本类不同,不用暴露数据的具体表达方式(抽取器的表征独立,representation independence)。与正则表达式结合使用,能够扩展模式匹配的方式,让模式匹配可以更灵活,定义更有弹性的库抽象,被大量使用在
2016-11-05 15:15:19 448
原创 programming in Scala 学习(二)
1. java通过private可以使类内部方法私有化,对外不可见。Scala除了private方式,还可以使用本地函数(内嵌在函数中的函数)实现,本地函数仅在包含它的函数代码块中可见,外部无法访问。在作用域方面,本地函数可以访问包含它的外层函数的入参,不需要再传入参数。2. 函数是Scala的头等函数(first-class function)或头等结构,不仅可以像java那样定义和
2016-10-16 10:39:00 638
原创 programming in Scala 学习(一)
1. Scala面向对象与函数编程(函数是一级的first class;函数输入输出映射,数据immutable不可修改)结合,兼容、简洁、高级抽象、静态类型(类型推断使Scala具有动态语言的赋值形式,但Scala变量保存、赋值,编译特征决定它是静态语言)、灵活。2. 函数式编程风格,尽量尝试不使用任何var变量,使用val变量编程。3. java里需要写public的地
2016-10-11 19:53:08 727
原创 Scala2.11.8 + Sbt + Maven + IntelliJ Idea + Spark2.0开发环境搭建备忘
已有hadoop yarn 和 spark 集群部署、运行在分布式环境中,程序开发编码在PC上,由于逐渐增多scala编写spark2.0程序,入乡随俗使用sbt和IntelliJ Idea,顺便对PC上的Scala + sbt + maven + IntelliJ Idea一些要注意的开发环境配置细节进行记录,侧重于现在网上比较少总结又可能让人有些困扰的部分,目前这方面总结比较完整的文章好像还比较少(也可能是自己看的不够多),有些内容也是google国外和自己摸索的,在此进行记录,一方面方便跟可能有同样需
2016-10-10 22:51:16 12488 2
MongoDB_权威指南_中文版
2018-06-21
kibana中文指南
2018-06-21
Elasticsearch权威指南(中文版)
2018-06-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人