大数据
鹿丸君
爱编程爱打豆豆
展开
-
基于Spark的学生成绩分析系统
本文是本人硕士期间云计算课程的一次大作业,所以可能部分内容有充字数的嫌疑,还望各位看官无视。。。但是也正因为此,本文对一些基础概念描述的也挺详细,包括但不限于Spark简介、Spark与Hadoop对比、Spark架构介绍、Pearson相关系数简介、Spark中的combineByKey函数简介等。原创 2018-07-02 17:33:00 · 12460 阅读 · 9 评论 -
Spark读取文本文件并转换为DataFrame
Spark ML里的核心API已经换成了DataFrame,为了使读取到的值成为DataFrame类型,我们可以直接使用读取CSV的方式来读取文本文件,可问题来了,当文本文件中每一行的各个数据被不定数目的空格所隔开时,我们无法将这些不定数目的空格当作CSV文件的分隔符,所以只能先将数据读取为rdd,然后用map方法构建元组,再用toDF方法转为DataFrame,但是如果列数很多的话,构建元组会很麻烦。本文将介绍spark读取多列txt文件后动态转成DataFrame的方法。原创 2018-08-08 23:09:43 · 23366 阅读 · 3 评论 -
spark统计每天新增用户数
本文源自一位群友的一道美团面试题,解题思路(基于倒排索引)和代码都是这位大佬(相对于尚处于小白阶段的我)写的,我只是在基于倒排索引的基础上帮忙想出了最后一步思路,感觉这个解题思路不错,值得记录一下。转载 2018-08-08 14:28:33 · 1085 阅读 · 0 评论 -
Spark MLlib中FPGrowth关联规则算法的使用
FPGrowth(频繁模式增长)是一种关联规则分析算法,本文通过代码演示用spark运行FPGrowth算法的一个小例子。原创 2018-08-02 18:08:24 · 1936 阅读 · 0 评论 -
浪潮集群上使用Hadoop和Spark
忙活了半天,终于在实验室的浪潮集群中配置好了hadoop和spark,以后能用配置这么高的服务器了,想想就好开心~原创 2018-08-02 18:05:28 · 624 阅读 · 0 评论 -
Spark MLlib中KMeans聚类算法的使用
KMeans是一种典型的聚类算法,本文通过代码来演示用spark运行KMeans算法的一个小例子。原创 2018-08-02 18:04:03 · 882 阅读 · 4 评论 -
Spark RDD的简单使用
RDD(Resilient Distributed Dataset)即弹性分布式数据集。RDD是Spark的核心,在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切的背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。RDD的创建创建RDD...原创 2018-08-02 18:02:14 · 362 阅读 · 0 评论 -
Spark从外部数据集中读取数据
本文将介绍几种从Spark中读取数据存入RDD的方式,分别是 - 从HDFS中读数据 - 从MySQL数据库中读数据 - 从HBase数据库中读数据本文中涉及到的工具版本如下: - Hadoop:2.7.4 - Spark:2.1.1 - HBase:1.2.6 - MySQL:5.7.22 - JDK...原创 2018-08-02 17:59:53 · 2445 阅读 · 0 评论 -
Spark MLlib中ALS交替最小二乘法推荐算法的使用
ALS(Alternating Least Square),交替最小二乘法。在机器学习中,特指使用最小二乘法的一种协同推荐算法。本文通过代码来演示用spark运行ALS算法的一个小例子。 算法简介ALS算法通过观察到的所有用户给商品的打分,来推断每个用户的喜好并向用户推荐适合的商品。其原理简单说就是假设用户评分矩阵是用户特征矩阵乘以物品特征矩阵得到的,即:A(m*n)=U(m*k...原创 2018-08-02 17:55:08 · 1312 阅读 · 0 评论 -
Spark中基于神经网络的MLPC(多层感知器分类器)的使用
MLPC(Multilayer Perceptron Classifier),多层感知器分类器,是一种基于前馈人工神经网络(ANN)的分类器。Spark中目前仅支持此种与神经网络有关的算法,在org.apache.spark.ml中(并非mllib)。本文通过代码来演示用Spark运行MLPC的一个小例子。原创 2018-08-06 20:10:57 · 5649 阅读 · 2 评论 -
Spark ML中Pipeline、特征转换和决策树分类算法的使用
Spark中有关机器学习的库已经在从MLlib往ML逐步迁移了,MLlib库将在Spark 3.0后停止维护,所以我们需要尽快熟悉ML库。在Spark ML库中,核心数据对象由RDD变为了DataFrame,同时,ML库中有一些特征转换的方法,并提供了Pipeline这一工具,可以使用户很方便的将对数据的不同处理组合起来,一次运行,从而是整个机器学习过程变得更加易用、简洁、规范和高效。本文将介绍使用Pipeline对数据进行特征转换后运行决策树分类算法的小例子。原创 2018-08-16 23:20:36 · 2795 阅读 · 0 评论