聂扶瑶-CSDN博客

原创 SparkSQL中的collect_set()函数对于输入类型的限制

在HQL中，collect_set() 支持各种类型的字段的聚合；-- HQL 中可以执行如下操作SELECT ssoid, collect_set(nickname)[0] AS nickname, collect_set(nat_code)[0] AS nat_code, collect_set(reg_brand)[0] AS reg_brand, collect_set(r...

2019-07-17 11:27:33 4845

转载 Eclipse中设置工程的所有文件的编码格式为UTF-8

Eclipse中设置工程的所有文件的编码格式为UTF-8将工程中的文件编码格式设置UTF-8则需要做以下工作：1. Text file encoding 设置windows-&gt;Preferences…打开"首选项"对话框，左侧导航树，导航到general-&gt;Workspace，右侧Text file encoding，选择Other，改变为UTF-8，以后新建立工程其属性对话框...

2018-10-10 19:50:13 3296 1

原创 SparkCore算子（实例）之---- action算子

Action Operation概述：SparkCore中的算子可以分为两类：Transformations Operation、Action Operation。在Spark的提交执行过程中，会将RDD及作用于其上的一系列算子（即：RDD及其之间的依赖关系）构建成一个DAG有向无环图。当遇到action类算子的时候就会触发一个job的提交，而Driver程序则会将触发的 job 提交给DA...

2018-09-21 17:21:50 849

原创 SparkCore算子（实例）之---- 交集、差集、并集（intersection, subtract, union, distinct, subtractByKey）

1. 交集 intersecion1.1 源码/** * Return the intersection of this RDD and another one. The output will not contain any duplicate * elements, even if the input RDDs did.//交集结果将会去重 * * @note T...

2018-09-21 09:35:19 2035

原创 SparkCore算子（实例）之----实现表格连接（cartesian, cogroup, flatMap）

笛卡尔积 cartesian笛卡尔积就是实现两个表格（数据集）的直接生硬拼接，具体过程为：对于左表的每一行数据，去拼接右表的每一行数据，将结果直接拼接。由于笛卡尔积的连接结果与连接顺序无关，即：没有驱动表和才从动表的区别，所以采用“左表”、“右表”这样的称呼，“左表”、“右表”只会影响最终的结果集中每一行记录的左右顺序，不影响整个结果的最终意义。首先创建两个RDD数据集： val rd...

2018-09-20 11:22:27 657

转载史上最全的Maven Pom文件标签详解

&amp;lt;span style=&quot;padding:0px; margin:0px&quot;&amp;gt;&amp;lt;project xmlns=&quot;http://maven.apache.org/POM/4.0.0&quot; xmlns:xsi=&quot;http://www.w3.org/2001/XMLSchema-instance&

2018-09-20 09:49:09 234

《Spark快速大数据分析》高清文字（非扫描）带完整书签目录

简体中文版由人民邮电出版社出版， 2015。英文原版的翻译得到 O’Reilly Media, Inc. 的授权。全书的完整的目录概要可参考： https://img-blog.csdn.net/20170227090721579?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGZnMDIxOA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

2018-09-16

《深度学习Deep Learning 》去水印中文版高清完整PDF版

资源分数只要5分！机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

2018-09-16

图解TCP/IP（第5版）

《图灵程序设计丛书：图解TCP/IP（第5版）》适合计算机网络的开发、管理人员阅读，也可作为大专院校相关专业的教学参考书。

2018-09-16

《数据结构与算法 Python语言描述》--裘宗燕

1世纪以来，Python已经发展成为世界上受欢迎的编程语言之一，使用非常广泛。由于其各方面的优点，Python正在被世界上越来越多的大学用作**门程序设计课程的语言，更多学校把它作为后续或者选修课程的内容。国内也开始出现这种情况。作者从几年前开始基于Python语言讲授数据结构课程，本书基于作者的教学经验和体会编写而成。本书结合抽象数据类型的思想，基于Python面向对象机制，阐述了各种基本数据结构的想法、性质、问题和实现，讨论一些相关算法的设计、实现和特性。书中还结合研究了一些数据结构的应用案例。本书加强了一些目前程序设计实践领域特别关注的内容，包括程序和数据结构设计中的安全性问题、正则表达式的概念和使用等。书中提供了大量编程练习题，特别关注数据结构的设计和实现技术，以及实际应用中各方面的问题。

2018-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 SparkSQL中的collect_set()函数对于输入类型的限制

转载 Eclipse中设置工程的所有文件的编码格式为UTF-8

原创 SparkCore算子（实例）之---- action算子

原创 SparkCore算子（实例）之---- 交集、差集、并集（intersection, subtract, union, distinct, subtractByKey）

原创 SparkCore算子（实例）之----实现表格连接（cartesian, cogroup, flatMap）

转载 史上最全的Maven Pom文件标签详解

《Spark快速大数据分析》高清文字（非扫描） 带完整书签目录

《深度学习Deep Learning 》去水印中文版 高清完整PDF版

图解TCP/IP（第5版）

《数据结构与算法 Python语言描述》--裘宗燕

空空如也

转载史上最全的Maven Pom文件标签详解

《Spark快速大数据分析》高清文字（非扫描）带完整书签目录

《深度学习Deep Learning 》去水印中文版高清完整PDF版