Scala
JosephDing_丁昭旭
这个作者很懒,什么都没留下…
展开
-
用Spark对人类信息进行综合分析,并得到聚类
简介此项目基于UCI上的开放数据 adult.data 主要做了如下分析:婚姻状况学历婚姻状况与学历的关系(博士学位获得者的婚姻状况)代表数据的获得(K-Means聚类分析)配置Spark版本: spark-2.3.1-bin-hadoop2.7语言:Scala 2.11.8数据地址:Adult Data Setsbt的内容:注意scalaVersion、导入的spar...原创 2018-09-24 21:10:06 · 1345 阅读 · 1 评论 -
通过Spark Mllib中决策树模型,训练通过其他信息来判断婚姻状况
简介尝试通过Spark上的决策树模型来训练模型,通过人群的其他信息来判断婚姻状况此项目基于UCI上的开放数据 adult.data github地址:AdultBase - Truedick23配置Spark版本: spark-2.3.1-bin-hadoop2.7语言:Scala 2.11.8数据地址:Adult Data Setsbt的内容:注意scalaVersion、导入...原创 2018-09-27 21:42:40 · 621 阅读 · 0 评论 -
Spark SQL中使用StringIndexer和IndexToString来对字符串信息进行索引和反索引
简介本篇博客使用Kaggle上的AdultBase数据集:Machine-Learning-Databases此数据集虽然历史比较悠久,但是数据格式比较容易处理,而且信息比较全面,适合数据处理入门。本篇博客使用了Spark SQL的相关语句,实现了以下功能:使用StringIndexer来对文本信息进行索引使用IndexToString和StringIndexer的labels值来实现...原创 2018-10-12 22:55:46 · 3024 阅读 · 0 评论 -
Spark中使用UDF函数、zipWithIndex配合Array数组来对Vector类的列进行分割,实现聚类中心读取为DataFrame
简介使用的数据集是UCI提供的Machine-Learning-Databases数据集。本篇博客的内容是笔者在输出聚类中心信息时实践所得:由于在ml中得到的聚类中心是Array[Vector]类的数据,Array中保存每个聚类中心的数据,Vector记录每个聚类中心的每个维度,很难将其读入DataFrame,本篇文章通过rdd作为中介来将其成功转换。而对于每个聚类中心的数据,如果根据所...原创 2018-10-13 10:48:09 · 2064 阅读 · 0 评论 -
在Spark SQL对人类数据实现K-Means聚类,并对聚类中心格式化输出
简介本篇博文对UCI提供的 Machine-Learning-Databases 数据集进行数据分析,并通过K-Means模型实现聚类,最后格式化输出聚类中心点。本文主要包括以下内容:通过VectorAssembler来将多列数据合成一列features数据,作为聚类模型的inputColK-Means模型的基础理论和参数的意义github地址:Truedick23 - AdultB...原创 2018-10-13 16:41:07 · 3472 阅读 · 0 评论 -
使用Spark中DataFrame的语法与SQL操作,对人类数据进行处理,比较学历与离婚率的关系
简介整理Kaggle上的人类信息数据 Machine-Learning-Databases,这个数据集已经有二十多年的历史,虽然历史久远,但是格式明确,是比较好的入门数据集。通过Spark中的Dataframe语法对其进行基本的数据处理和输出,主要实现了如下功能:SparkSession的建立Dataframe的创建、过滤(filter)、合并(groupBy)、部分选择(select)...原创 2018-10-07 22:58:13 · 965 阅读 · 0 评论 -
勒布朗生涯数据可视化(一)用Spark SQL从NBA数据集中提取相关数据
简介本篇文章使用Kaggle.com上的数据集NBA Players stats since 1950中的Seasons_Stats.csv,其包含从1950至今的每个赛季的球员数据,每条数据有53项栏目,是综合性较强的NBA数据集,我尝试从中提取勒布朗詹姆斯的生涯数据,并用Matplotlib库实现可视化功能。第一部分文章我们尝试从大数据集中提取我们需要的相关信息,即站配置语言:...原创 2018-10-23 22:34:52 · 1731 阅读 · 0 评论