bitbyteworld
码龄8年
关注
提问 私信
  • 博客:19,564
    19,564
    总访问量
  • 10
    原创
  • 1,719,383
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖南省
  • 加入CSDN时间: 2016-10-10
博客简介:

bitbyteworld的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得2次评论
  • 获得4次收藏
创作历程
  • 3篇
    2017年
  • 7篇
    2016年
TA的专栏
  • scala开发学习
    4篇
  • 开发环境搭建
    1篇
  • Spark学习
    6篇
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

183人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

MongoDB_权威指南_中文版

发布资源 2018.06.21 ·
pdf

kibana中文指南

发布资源 2018.06.21 ·
pdf

Elasticsearch权威指南(中文版)

发布资源 2018.06.21 ·
pdf

machine learning with spark (1)

1.广播变量(broadcast variable)为只读变量,它由运行SparkContext的驱动程序driver创建后发送给会参与计算的节点。对那些需要让各工作节点高效地访问相同数据的应用场景,比如机器学习,这非常有用。2.collect函数是一个Spark执行函数,它将整个RDD以Scala(Python或Java)集合的形式返回给驱动程序driver所在节点。通常只在需将结果
原创
发布博客 2017.04.08 ·
424 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Learning Spark: lightning-fast big data analysis (2)

1. driver进程始终对应用中所有的executor进程有完整的记录。每个executor进程代表一个能够处理任务和存储RDD 数据的进程。2.Spark driver程序会根据当前的executor节点集合,尝试把所有任务基于数据所在位置分配给合适的executor进程。当任务执行时,executor进程会把缓存数据存储起来,而driver进程同样会跟踪这些缓存数据的位置,并且利
原创
发布博客 2017.01.19 ·
833 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数值RDD的操作算子

Spark 对包含数值数据的RDD 提供了一些描述性的统计操作。Spark 的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些统计数据都会在调用stats() 时通过一次遍历数据计算出来,并以StatsCounter 对象返回。
原创
发布博客 2017.01.19 ·
590 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

常见的RDD转化和行动操作算子

1.转化操作2.行动操作
原创
发布博客 2016.12.13 ·
1902 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark wordcount - Python, Scala, Java

基于Spark实现的Python, Scala, Java三个版本的、经典的分布式单词计数代码。1. Scalaval input = sc.textFile("hdfs://...")val words = input.flatMap(x => x.split(" "))val result = words.map(x => (x, 1)).reduceByKey((x,
原创
发布博客 2016.12.13 ·
464 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Learning Spark: lightning-fast big data analysis (1)

1. Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。2.转化操作和行动操作
原创
发布博客 2016.11.20 ·
1038 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

programming in Scala 学习(三)

(22-33)1. 定义具有unapply或unapplySeq名称的方法的对象,被称为抽取器,前者对应固定个数的入参,后者对应变参。抽取器的目的是为了匹配并分解值,它与样本类不同,不用暴露数据的具体表达方式(抽取器的表征独立,representation independence)。与正则表达式结合使用,能够扩展模式匹配的方式,让模式匹配可以更灵活,定义更有弹性的库抽象,被大量使用在
原创
发布博客 2016.11.05 ·
449 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

programming in Scala 学习(二)

1. java通过private可以使类内部方法私有化,对外不可见。Scala除了private方式,还可以使用本地函数(内嵌在函数中的函数)实现,本地函数仅在包含它的函数代码块中可见,外部无法访问。在作用域方面,本地函数可以访问包含它的外层函数的入参,不需要再传入参数。2. 函数是Scala的头等函数(first-class function)或头等结构,不仅可以像java那样定义和
原创
发布博客 2016.10.16 ·
641 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

programming in Scala 学习(一)

1. Scala面向对象与函数编程(函数是一级的first class;函数输入输出映射,数据immutable不可修改)结合,兼容、简洁、高级抽象、静态类型(类型推断使Scala具有动态语言的赋值形式,但Scala变量保存、赋值,编译特征决定它是静态语言)、灵活。2. 函数式编程风格,尽量尝试不使用任何var变量,使用val变量编程。3. java里需要写public的地
原创
发布博客 2016.10.11 ·
729 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala2.11.8 + Sbt + Maven + IntelliJ Idea + Spark2.0开发环境搭建备忘

已有hadoop yarn 和 spark 集群部署、运行在分布式环境中,程序开发编码在PC上,由于逐渐增多scala编写spark2.0程序,入乡随俗使用sbt和IntelliJ Idea,顺便对PC上的Scala + sbt + maven + IntelliJ Idea一些要注意的开发环境配置细节进行记录,侧重于现在网上比较少总结又可能让人有些困扰的部分,目前这方面总结比较完整的文章好像还比较少(也可能是自己看的不够多),有些内容也是google国外和自己摸索的,在此进行记录,一方面方便跟可能有同样需
原创
发布博客 2016.10.10 ·
12495 阅读 ·
1 点赞 ·
2 评论 ·
13 收藏