- 博客(6)
- 资源 (4)
- 收藏
- 关注
原创 SparkSQL中的collect_set()函数对于输入类型的限制
在HQL中,collect_set() 支持各种类型的字段的聚合;-- HQL 中可以执行如下操作SELECT ssoid, collect_set(nickname)[0] AS nickname, collect_set(nat_code)[0] AS nat_code, collect_set(reg_brand)[0] AS reg_brand, collect_set(r...
2019-07-17 11:27:33 4845
转载 Eclipse中设置工程的所有文件的编码格式为UTF-8
Eclipse中设置工程的所有文件的编码格式为UTF-8将工程中的文件编码格式设置UTF-8则需要做以下工作:1. Text file encoding 设置windows->Preferences…打开"首选项"对话框,左侧导航树,导航到general->Workspace,右侧Text file encoding,选择Other,改变为UTF-8,以后新建立工程其属性对话框...
2018-10-10 19:50:13 3296 1
原创 SparkCore算子(实例)之---- action算子
Action Operation概述:SparkCore中的算子可以分为两类:Transformations Operation、Action Operation。在Spark的提交执行过程中,会将RDD及作用于其上的一系列算子(即:RDD及其之间的依赖关系)构建成一个DAG有向无环图。当遇到action类算子的时候就会触发一个job的提交,而Driver程序则会将触发的 job 提交给DA...
2018-09-21 17:21:50 849
原创 SparkCore算子(实例)之---- 交集、差集、并集(intersection, subtract, union, distinct, subtractByKey)
1. 交集 intersecion1.1 源码/** * Return the intersection of this RDD and another one. The output will not contain any duplicate * elements, even if the input RDDs did.//交集结果将会去重 * * @note T...
2018-09-21 09:35:19 2035
原创 SparkCore算子(实例)之----实现表格连接(cartesian, cogroup, flatMap)
笛卡尔积 cartesian笛卡尔积就是实现两个表格(数据集)的直接生硬拼接,具体过程为:对于左表的每一行数据,去拼接右表的每一行数据,将结果直接拼接。由于笛卡尔积的连接结果与连接顺序无关,即:没有驱动表和才从动表的区别,所以采用“左表”、“右表”这样的称呼,“左表”、“右表”只会影响最终的结果集中每一行记录的左右顺序,不影响整个结果的最终意义。首先创建两个RDD数据集: val rd...
2018-09-20 11:22:27 657
转载 史上最全的Maven Pom文件标签详解
<span style="padding:0px; margin:0px"><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance&
2018-09-20 09:49:09 234
《Spark快速大数据分析》高清文字(非扫描) 带完整书签目录
2018-09-16
《深度学习Deep Learning 》去水印中文版 高清完整PDF版
2018-09-16
《数据结构与算法 Python语言描述》--裘宗燕
2018-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人