自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (3)
  • 收藏
  • 关注

原创 machine learning with spark (1)

1.广播变量(broadcast variable)为只读变量,它由运行SparkContext的驱动程序driver创建后发送给会参与计算的节点。对那些需要让各工作节点高效地访问相同数据的应用场景,比如机器学习,这非常有用。2.collect函数是一个Spark执行函数,它将整个RDD以Scala(Python或Java)集合的形式返回给驱动程序driver所在节点。通常只在需将结果

2017-04-08 19:24:52 415

原创 Learning Spark: lightning-fast big data analysis (2)

1. driver进程始终对应用中所有的executor进程有完整的记录。每个executor进程代表一个能够处理任务和存储RDD 数据的进程。2.Spark driver程序会根据当前的executor节点集合,尝试把所有任务基于数据所在位置分配给合适的executor进程。当任务执行时,executor进程会把缓存数据存储起来,而driver进程同样会跟踪这些缓存数据的位置,并且利

2017-01-19 15:49:50 824

原创 数值RDD的操作算子

Spark 对包含数值数据的RDD 提供了一些描述性的统计操作。Spark 的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些统计数据都会在调用stats() 时通过一次遍历数据计算出来,并以StatsCounter 对象返回。

2017-01-19 15:33:03 583

原创 常见的RDD转化和行动操作算子

1.转化操作2.行动操作

2016-12-13 18:03:15 1888

原创 Spark wordcount - Python, Scala, Java

基于Spark实现的Python, Scala, Java三个版本的、经典的分布式单词计数代码。1. Scalaval input = sc.textFile("hdfs://...")val words = input.flatMap(x => x.split(" "))val result = words.map(x => (x, 1)).reduceByKey((x,

2016-12-13 17:46:46 453

原创 Learning Spark: lightning-fast big data analysis (1)

1. Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。2.转化操作和行动操作

2016-11-20 11:40:39 1019

原创 programming in Scala 学习(三)

(22-33)1. 定义具有unapply或unapplySeq名称的方法的对象,被称为抽取器,前者对应固定个数的入参,后者对应变参。抽取器的目的是为了匹配并分解值,它与样本类不同,不用暴露数据的具体表达方式(抽取器的表征独立,representation independence)。与正则表达式结合使用,能够扩展模式匹配的方式,让模式匹配可以更灵活,定义更有弹性的库抽象,被大量使用在

2016-11-05 15:15:19 436

原创 programming in Scala 学习(二)

1. java通过private可以使类内部方法私有化,对外不可见。Scala除了private方式,还可以使用本地函数(内嵌在函数中的函数)实现,本地函数仅在包含它的函数代码块中可见,外部无法访问。在作用域方面,本地函数可以访问包含它的外层函数的入参,不需要再传入参数。2. 函数是Scala的头等函数(first-class function)或头等结构,不仅可以像java那样定义和

2016-10-16 10:39:00 630

原创 programming in Scala 学习(一)

1. Scala面向对象与函数编程(函数是一级的first class;函数输入输出映射,数据immutable不可修改)结合,兼容、简洁、高级抽象、静态类型(类型推断使Scala具有动态语言的赋值形式,但Scala变量保存、赋值,编译特征决定它是静态语言)、灵活。2. 函数式编程风格,尽量尝试不使用任何var变量,使用val变量编程。3. java里需要写public的地

2016-10-11 19:53:08 712

原创 Scala2.11.8 + Sbt + Maven + IntelliJ Idea + Spark2.0开发环境搭建备忘

已有hadoop yarn 和 spark 集群部署、运行在分布式环境中,程序开发编码在PC上,由于逐渐增多scala编写spark2.0程序,入乡随俗使用sbt和IntelliJ Idea,顺便对PC上的Scala + sbt + maven + IntelliJ Idea一些要注意的开发环境配置细节进行记录,侧重于现在网上比较少总结又可能让人有些困扰的部分,目前这方面总结比较完整的文章好像还比较少(也可能是自己看的不够多),有些内容也是google国外和自己摸索的,在此进行记录,一方面方便跟可能有同样需

2016-10-10 22:51:16 12460 2

MongoDB_权威指南_中文版

MongoDB_权威指南_中文版,《MongoDB权威指南》广受好评,第2版新版本在此基础上大幅扩充,内容更加全面、深入。MongoDB项目组成员倾力打造

2018-06-21

kibana中文指南

kibana中文指南,Kibana是一个使用Apache开源协议,基于浏览器的Elasticsearch分析和搜索仪表板。Kibana非常容易安装和使用。整个项目都是用HTML和Javascript写的

2018-06-21

Elasticsearch权威指南(中文版)

Elasticsearch权威指南 中文PDF版,Elasticsearch是一个实时分布式搜索和分析引擎。它让你以前所未有的速度处理大数据成为可能

2018-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除