Spark与机器学习----数据的获取、处理与准备

最新推荐文章于 2023-11-15 20:39:47 发布

VIP文章梵天的读书笔记

最新推荐文章于 2023-11-15 20:39:47 发布

阅读量1.2k

点赞数

分类专栏：数据采集和整理文章标签： spark 数据特征

本文链接：https://blog.csdn.net/is_badboy/article/details/79510567

版权

1. 数据获取

常用公开数据集：

UCL机器学习知识库：包括近300个不同大小和类型的数据集，可用于分类、回归、聚类和推荐系统任务。数据集列表位于： http://archive.ics.uci.edu/ml/。
Amazon AWS公开数据集：包含的通常是大型数据集，可通过Amazon S3访问。相关信息可参见： http://aws.amazon.com/publicdatasets/。
Kaggle：这里集合了Kaggle举行的各种机器学习竞赛所用的数据集。下载：http://www.kaggle.com/competitions。
KDnuggets：这里包含一个详细的公开数据集列表，其中一些上面提到过的。该列表位于： http://www.kdnuggets.com/datasets/index.html。

2. 探索与可视化数据

载入数据，通过IPython notebook的可视化编程，来分析数据结构，统计数据分布，了解数据的缺失性，为数据的整理和清洗做前期准备工作。
可通过Matplotlib对数据生成统计图表，了解数据的分布情况。
数值型数据通过统计：数量、最大值、最小值、平均值、中值、方差等数学指标了解其特征
类别信数据通过统计：数量、类别分布等信息了解其特征。

数据探索可通过Spark中对RDD操作API函数实现。

3. 数据的处理与转换

为让原始数据可用于机器学习算法，需要先对其进行清理，并可能需要将其进行各种转换，之后才能从转换后的数据里提取有用的特征。数据的转换和特征提取联系紧密。某些情况下，一些转换本身便是特征提取的过程。一般来说，现实中的数据会存在信息不规整、数据点缺失和异常值问题。理想情况下，我们会修复非规整数据。大致的处理方法如下：

过滤掉或删除非规整或有值缺失的数据：这通常是必须的，但的确会损失这些数据里那些好的信息。
填充非规整或缺失的数据：可以根据其他的数据来填充非规整或缺失的数据。方法包括用零值、全局期望或中值来填充，或是根据相邻或类似的数据点来做插值（通常针对时序数据）等。选择正确的方式并不容易，它会因数据、应用场景和个人经验而不同。
对异常值做鲁棒处理&

最低0.47元/天解锁文章

梵天的读书笔记

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark与机器学习----数据的获取、处理与准备

1. 数据获取常用公开数据集：UCL机器学习知识库：包括近300个不同大小和类型的数据集，可用于分类、回归、聚类和推荐系统任务。数据集列表位于： http://archive.ics.uci.edu/ml/。Amazon AWS公开数据集：包含的通常是大型数据集，可通过Amazon S3访问。相关信息可参见： http://aws.amazon.com/publicdatasets/。Kagg...
复制链接

扫一扫