Spark
文章平均质量分 93
子安
这个作者很懒,什么都没留下…
展开
-
大数据Spark:动手写WordCount
问题导读Spark上下文弹性分布式数据集RDD转换动作运行问题导读1.Spark集群的执行单位是什么? 2.RDD的创建的来源是什么? 3.RDD之间是否可以转换? 4.如何实现修改spark WordCount?Spark是主流的大数据处理框架,具体有啥能耐,相信不需要多说。我们开门见山,直接动手写大数据界的HelloWorld:WordCount。先上完整代码,看看咋样能入门。转载 2015-05-26 09:51:02 · 728 阅读 · 0 评论 -
通过Thrift Server使用JDBC来运行Spark SQL
通过Thrift Server使用JDBC来运行Spark SQL标签(空格分隔): thriftserver jdbc sparkSQL更新记录初始发布:2017-09-19 第一次更新:xxx简介Thrift JDBC/ODBC Server (简称 Spark Thrift Server 或者 STS)是Spark SQL的Apache Hive HiveServer2的端口,通过这个端口可原创 2017-09-19 15:02:47 · 6065 阅读 · 1 评论 -
Scala版本冲突--java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/
问题描述Run 代码的时候报错Exception in thread "main" java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;解决办法 将Scala2.11.x更换为Scala2.10.x操作如下: File –> Ot原创 2017-07-26 11:42:37 · 11926 阅读 · 3 评论 -
避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程
避免在Spark 2.x版本中使用sparkSQL,关于CTAS bug的发现过程标签(空格分隔): Spark2.x sparkSQL CTAS避免在Spark 2x版本中使用sparkSQL关于CTAS bug的发现过程背景问题发现过程1 问题发现2 问题重现尝试解决问题1 网上建议12 网上建议23 组合方案解决方案最后结论1. 背景CTAS就是create table a原创 2017-07-17 17:03:38 · 3055 阅读 · 1 评论 -
快速上手写spark代码系列01:RDD transformation函数入门
快速上手写spark代码系列:01-RDD transformation函数入门标签(空格分隔): RDD transformation快速上手写spark代码系列01-RDD transformation函数入门元素映射类转换map函数flatMap函数filter函数分区集合类转换mapPartitions函数这个属于集合类操作直接对一个分区进行操作mapPartitionsWit原创 2017-06-29 18:26:40 · 2953 阅读 · 0 评论 -
快速上手写spark代码系列03:开始写一个spark小脚本(1)
快速上手写spark代码系列:03-开始写一个spark小脚本(1)快速上手写spark代码系列03-开始写一个spark小脚本1训练背景设置第一步准备数据集第二步读取文件第三步做字段提取生成RDD第四步合并RDD第五步过滤某些字段第六步关联用户第七步关联位置参数第八步选取字段生成新的结果第九步存储成指定文件数目训练背景设置上一篇将了RDD操作的各种函数,这一节就把这些函数放在一原创 2017-06-30 16:55:51 · 2356 阅读 · 1 评论 -
拼写错误:value countBykey is not a member of org.apache.spark.rdd.RDD[(String, Int)]
今天写了一行代码,感觉很简单啊,怎么报错呢,后来一看是一个超级低级错误, 大小写搞错了,countByKey写成了countBykey,所以Spark的算子大小写一定不要搞错,有可能会报上面的错误。scala> sc.textFile("E:\\eventype").map(_.split("\\|")).map(x=>(x(0)+"|"+x(1),1)).countBykey() :23: e原创 2017-06-01 11:01:24 · 6568 阅读 · 0 评论 -
使用Spark MLlib的逻辑回归(LogisticRegression)进行用户分类预测识别
import org.apache.spark.SparkContextimport org.apache.spark.SparkConfimport org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD}import org.apache.spark.mlli原创 2017-05-18 11:33:47 · 7649 阅读 · 5 评论 -
使用Spark MLlib随机森林RandomForest+pipeline进行预测
这个程序中,我们使用pipeline来完成整个预测流程,加入了10-fold cross validation。import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPo原创 2017-05-18 15:40:54 · 4534 阅读 · 1 评论 -
Spark 基础学习第一讲:弹性分布式数据集RDD
引子part1为什么要引入RDDpart2RDD是什么1 基本概念2 关于容错3 每个RDD有5个主要的属性31 RDD要素之一partition32 RDD要素之二函数33 RDD要素之三依赖关系自动容错34 RDD要素之四partitioner35 RDD要素之五本地存储优化Part3RDD在底层是如何实现的1 RDD底层实现原理2 RDD的逻辑与物理架构3数据与计算原创 2017-04-06 17:43:48 · 1408 阅读 · 0 评论 -
Spark集群硬件配置参考
Spark集群硬件配置参考标签(空格分隔): Spark硬件配置Spark开发人员面临的最常见一个问题就是集群的配置硬件。一般来说,合理的硬件配置取决于自身的实际情况,我们只能从以下几个方面提出建议。存储系统大部分的Spark作业会从外部存储系统(比如Hadoop文件系统或者Hbase)读取输入数据,因此将其与存储系统放得越近越好,我们给出如下建议:如果可能的话,在与HDFS相同的节点上运行Spar翻译 2017-10-18 17:53:19 · 1390 阅读 · 0 评论