大型数据集的方法和常用的算法，主要有哪些？

最新推荐文章于 2024-08-28 09:03:33 发布

人工智能和大数据时代

最新推荐文章于 2024-08-28 09:03:33 发布

阅读量864

点赞数

分类专栏：大数据文章标签：数据集常用算法

本文链接：https://blog.csdn.net/weixin_43346716/article/details/89336734

版权

本文探讨了大型数据集处理的四种方法：投影、特征选择、分类和聚类。投影涉及主成分分析和自组织映射图；特征选择旨在减少噪声数据；分类是监督学习，涉及模型构建和防止过拟合；聚类则关注数据的无监督分组，如K-means算法。这些方法的选择依赖于具体数据集和项目需求。

摘要由CSDN通过智能技术生成

这里有四个比较具体的研究人员试图了解大型数据集的方法以及一些常用的算法。这些方法和算法有许多变数，但是这个表单至少是个良好的开端。我将在后续的帖子中更详尽的描述他们。

1）投影——找一个从原始向量空间到低维空间（例如水平面）尽可能少的扭曲点与点之间关系的函数，当然，尽可能的线性投影，但是找到一个好的线性投影可不是一个平凡的工作。线性投影最流行的做法似乎是主成分分析法。如拓扑学，不过，我们可以想像线性预测潜在问题，特别是拓扑有趣集。自组织映射图（有时称为Kohonen map）产生一个本地/分段线性投影，似乎更像拓扑声纹。更普遍的是，人们可以尝试投到一个更有趣的拓扑低维流上，这叫做流形学习。

2）特征选择——在一些高维数据中，有许多维度是噪音数据。特征选择是找出那些具有高信噪比的问题。统计学方法可以逐个的检查特征/尺寸，但往往最好是一下子能看到特征的子集。从拓扑学观点，这仅仅是有限的线性投影形式，但是在实际中往往是一个单独的问题类型。特别是人们普遍要投射到两维或者三维的情况，但是对于特征选择，可以选择超过两个或者三个的特征。这两个问题往往是进入下面两个之一的前奏：

3）分类——这个问题和机器学习密切相关，通常被叫做监督学习：一组带有标签的收集数据，这些标签告诉你它从哪儿来；另一组没有标签的收集数据，决定哪个标签最适合他们，这就是“学习”，因为你可以通过思考标记的数据来进行训练——你告诉计算机在不同情形下对于集合中每个元素应该做什么样的决定。然后电脑必须自己决定在其余的情况下该做什么，通常，人们要基于标签数据建立一个合理的模型，然后抛出原始数据并归纳出基于这个模型新问题。尤其是，经常要权衡是制造一个拓扑的、尖端的模型还是造一个计算廉价