Spark进阶专栏
要想挖掘数据的最大价值,先使用好数据挖掘工具!
fazhi-bb
物有本末,事有终始,知所先后,则近道矣。
展开
-
[Spark RDD转换操作运算子]
Spark RDD转换操作RDD,即弹性分布式数据集,全称为Resilient Distributed Dataset,是一个容错的,并行的数据结构,可以让用户显式地 将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组非常丰富的操作来操作这些数据,如:map,flatMap,filter等转换操作,以及SaveAsTextFile,conutByKey等行动操作。本博客中...原创 2018-07-24 23:30:57 · 7188 阅读 · 0 评论 -
[使用SparkSQL操作DataFrame]
SparkSql 是一种处理结构化模型数据的Spark模块,它提供了一种叫做DataFrame抽象编程,它也可以作为分布式Sql查询引擎, SparkSql可以从已经安装的Hive服务中读取数据,也可以从RDBMS 数据库中读取数据。 在Spark2.0之后,引入了SparkSession新概念。SparkSession实质上是SQLContext和HiveContext的组合,所以...原创 2018-06-01 20:36:51 · 9372 阅读 · 0 评论 -
[Spark的二次排序的实现]
二次排序原理 二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。二次排序技术 假设对应的Key = K有如下值: (K,V1), (K,V2),…,(K,Vn) 另外假设每个Vi是包含m个属性的一个元组,如下所示: (Ai1,Ai2,…,Aim)在这里我们希望按Ai1对归约器的元组的值...原创 2018-06-05 20:59:56 · 16723 阅读 · 1 评论 -
[Spark的LeftOuterJoin操作]
在编写SQL语句时,大家都比较熟悉的LeftOuterJoinn来关联两个表之间的数据,从而查询到我们想要的结果。在Spark的数据操作中,同样也会经常使用LeftOuterJoin来关联两个数据集。那么,在Spark数据操作中主要有那几种数据集的LeftOuterJoin方法呢? 本文中操作LeftOuterJoin方法时,主要用到的数据为用户表数据和用户订单交易数据,使用Left...原创 2018-06-12 20:56:38 · 16598 阅读 · 0 评论 -
[Spark应用依赖jar包的添加解决方案]
Spark应用依赖jar包添加无效的解决方案 在Spark应用中,我们发现,在${SPARK_HOME}\lib文件夹中添加jar包时并不起作用。那么,要如何使得我们编写的Sparky应用依赖的jar有效呢?有如下四种方案: 1.使用参数--jars 添加本地的第三方jar文件(运行spark-submit脚本的机器上),可以给定多个jar文件,中间用逗号隔开 例子: ...原创 2018-07-07 21:53:16 · 18662 阅读 · 4 评论