Spark实战
小主自己学习Spark的历程吧,目前正在学习,大家可以一起进步
搜索与推荐Wiki
这个作者很懒,什么都没留下…
展开
-
基于Spark和Hive进行的豆瓣电影数据分析
自己做的一个关于豆瓣电影数据的一些分析,主要采用的是Spark和Hive,Python作为基础实现,也设计了中文分词统计,hadoop等内容原创 2016-08-23 17:38:23 · 21722 阅读 · 23 评论 -
Spark使用Libsvm格式数据构造LabeledPoint格错误:requirement failed:Index 2287 out of bounds for vector of size 27
背景使用libsvm格式的数据构造LabeledPoint格式,例如我的libsvm格式数据如下(索引下标最大值为,3000):790718 1:1 2:1 4:1 5:1 6:1 7:1 9:1 11:1 13:1 16:1 19:1 21:1 28:1 31:1 43:1 64:1 65:1 140:1 164:1 184:1 296:1 463:1 481:1 642:1 813:1 1...原创 2019-11-29 10:29:22 · 1530 阅读 · 0 评论 -
Scala 解析 XML
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 在使用Spark时,有时候主函数入口参数过多的时候,会特别复杂,这个时候我们可以将相应的参数写在xml文件中,原创 2018-02-04 16:45:36 · 4924 阅读 · 0 评论 -
Spark求统计量的两种方法
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer Spark对于统计量中的最大值,最小值,平均值和方差(均值)的计算都提供了封装,这里小编知道两种计算方法,整理原创 2018-02-04 16:44:07 · 5198 阅读 · 0 评论 -
记一次百G数据的聚类算法实施过程
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 如题,记一次百G数据的聚类算法实施过程,用的技术都不难,spark和kmeans,我想你会认为这没有什么难度,原创 2018-01-26 21:20:45 · 2022 阅读 · 2 评论 -
Spark多路径输出和二次排序
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 在实际应用场景中,我们对于Spark往往有各式各样的需求,比如说想MR中的二次排序,Top N,多路劲输出等。原创 2018-01-25 00:24:31 · 2202 阅读 · 0 评论 -
Spark提交参数说明和常见优化
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 最近在搞一个价格分类模型,虽说是分类,用的是kmeans算法,求出聚类中心,对每个价格进行级别定级。虽然说起原创 2018-01-23 00:40:48 · 15026 阅读 · 2 评论 -
Spark的伪分布安装和wordcount测试
一:环境说明 Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的) Hadoop:2.6 Scala:2.11.8 Java:1.7.0 Spark:1.6.12:hadoop伪分布安装原创 2016-06-11 22:31:04 · 4992 阅读 · 0 评论 -
Spark 的 Shell操作,核心概念,构建独立应用
1:Spark中的Python和Scala的shell2:Spark核心概念简介3:独立应用4:Spark数据集一:Spark中的Python 和Scala 的shell 1:shell设置显示日志 进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息原创 2016-06-17 19:53:33 · 3946 阅读 · 0 评论 -
Spark RDD编程(Python和Scala版本)
Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。 Spark的RDD操作分 和为转化操作(transformation)和行动操作(action),两者的区别在于: 转化操作返回一个新的RDD对象 行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器原创 2016-06-18 11:08:15 · 10522 阅读 · 2 评论 -
Spark 的键值对(pair RDD)操作,Scala实现
一:什么是Pair RDD? Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为Pair RDD,Pair RDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。二:Pair RDD的操作实例1:创建Pair RDDPai RDDr的转化操作:2:针对两个pair RDD 的转化操作原创 2016-07-04 15:52:12 · 16288 阅读 · 2 评论 -
Spark的运行架构分析(一)之架构概述
1:Spark的运行模式2:Spark中的一些名词解释3:spark的运行基本流程一:Spark的运行模式 Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的S原创 2016-07-05 19:33:33 · 13995 阅读 · 3 评论 -
Spark的运行架构分析(二)之运行模式详解
在上一篇博客 spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式原创 2016-07-05 19:34:29 · 11432 阅读 · 2 评论 -
Spark集群启动python shell错误: Could not resolve hostname localhost: Temporary failure
Spark启动bin/pyspark报错:socket.gaierror: [Errno -3] Temporary failure in name resolution的解决办法原创 2016-08-01 10:12:56 · 7062 阅读 · 1 评论 -
带你走进Spark编程之Scala入门
1:什么是Scala? Scala是一门多范式的编程语言,类似于Java,并集成了面向对象编程和函数式编程的各种特性,具体可参考知乎上的一个帖子2:本篇博客包含哪些内容? Scala中变量的声明与函数定义 Scala中的控制结构 Scala中的数据类型 Scala中的类详解原创 2016-08-04 14:12:36 · 6846 阅读 · 0 评论 -
IDEA构建Spark编程环境和用Scala实现PageRank算法
写在前边的话 以前在学习编写mapreduce时,由于没有shell,就是首先在eclipse里配置环境,利用eclipse的强大功能进行编写,调试,编译,最终打包到集群上运行,同样面对Spark的时候,虽然spark提供了强大的shell 脚本能力,但对于定期或者处理时间很长的程序来说并不适合使用shell,所以这里我选用了强大IDEA 作为spark的开发环境 环境...原创 2016-08-09 14:42:03 · 3835 阅读 · 0 评论 -
使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解决中文分词统计这个问题 同步github地址:点击查看原创 2016-08-23 17:40:50 · 11849 阅读 · 4 评论 -
Spark RDD编程(二)
RDD的分区函数 | RDD的基本转换操作 |repartition 和 coalesce | randomSplit和glom | mapPartitions和mapPartitionsWithIndex | zip和zipPartitions | zipWithIndex和zinWithUniqueId | 控制操作 | 行动操作原创 2016-09-14 12:35:47 · 4556 阅读 · 2 评论