bitbyteworld-CSDN博客

原创 machine learning with spark (1)

1.广播变量（broadcast variable）为只读变量，它由运行SparkContext的驱动程序driver创建后发送给会参与计算的节点。对那些需要让各工作节点高效地访问相同数据的应用场景，比如机器学习，这非常有用。2.collect函数是一个Spark执行函数，它将整个RDD以Scala（Python或Java）集合的形式返回给驱动程序driver所在节点。通常只在需将结果

2017-04-08 19:24:52 421

原创 Learning Spark: lightning-fast big data analysis (2)

1. driver进程始终对应用中所有的executor进程有完整的记录。每个executor进程代表一个能够处理任务和存储RDD 数据的进程。2.Spark driver程序会根据当前的executor节点集合，尝试把所有任务基于数据所在位置分配给合适的executor进程。当任务执行时，executor进程会把缓存数据存储起来，而driver进程同样会跟踪这些缓存数据的位置，并且利

2017-01-19 15:49:50 831

原创数值RDD的操作算子

Spark 对包含数值数据的RDD 提供了一些描述性的统计操作。Spark 的数值操作是通过流式算法实现的，允许以每次一个元素的方式构建出模型。这些统计数据都会在调用stats() 时通过一次遍历数据计算出来，并以StatsCounter 对象返回。

2017-01-19 15:33:03 588

原创 Spark wordcount - Python, Scala, Java

基于Spark实现的Python, Scala, Java三个版本的、经典的分布式单词计数代码。1. Scalaval input = sc.textFile("hdfs://...")val words = input.flatMap(x => x.split(" "))val result = words.map(x => (x, 1)).reduceByKey((x,

2016-12-13 17:46:46 460

原创 Learning Spark: lightning-fast big data analysis (1)

1. Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。2.转化操作和行动操作

2016-11-20 11:40:39 1036

原创 programming in Scala 学习（三）

（22-33）1. 定义具有unapply或unapplySeq名称的方法的对象，被称为抽取器，前者对应固定个数的入参，后者对应变参。抽取器的目的是为了匹配并分解值，它与样本类不同，不用暴露数据的具体表达方式（抽取器的表征独立，representation independence）。与正则表达式结合使用，能够扩展模式匹配的方式，让模式匹配可以更灵活，定义更有弹性的库抽象，被大量使用在

2016-11-05 15:15:19 448

原创 programming in Scala 学习（二）

1. java通过private可以使类内部方法私有化，对外不可见。Scala除了private方式，还可以使用本地函数（内嵌在函数中的函数）实现，本地函数仅在包含它的函数代码块中可见，外部无法访问。在作用域方面，本地函数可以访问包含它的外层函数的入参，不需要再传入参数。2. 函数是Scala的头等函数（first-class function）或头等结构，不仅可以像java那样定义和

2016-10-16 10:39:00 638

原创 programming in Scala 学习（一）

1. Scala面向对象与函数编程（函数是一级的first class；函数输入输出映射，数据immutable不可修改）结合，兼容、简洁、高级抽象、静态类型（类型推断使Scala具有动态语言的赋值形式，但Scala变量保存、赋值，编译特征决定它是静态语言）、灵活。2. 函数式编程风格，尽量尝试不使用任何var变量，使用val变量编程。3. java里需要写public的地

2016-10-11 19:53:08 727

原创 Scala2.11.8 + Sbt + Maven + IntelliJ Idea + Spark2.0开发环境搭建备忘

已有hadoop yarn 和 spark 集群部署、运行在分布式环境中，程序开发编码在PC上，由于逐渐增多scala编写spark2.0程序，入乡随俗使用sbt和IntelliJ Idea，顺便对PC上的Scala + sbt + maven + IntelliJ Idea一些要注意的开发环境配置细节进行记录，侧重于现在网上比较少总结又可能让人有些困扰的部分，目前这方面总结比较完整的文章好像还比较少（也可能是自己看的不够多），有些内容也是google国外和自己摸索的，在此进行记录，一方面方便跟可能有同样需

2016-10-10 22:51:16 12488 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

bitbyteworld的博客