机器学习基本概念（分类方法）：Bayes、PCA、LDA 和 K-means

最新推荐文章于 2024-06-25 13:31:56 发布

iridescentzx

最新推荐文章于 2024-06-25 13:31:56 发布

阅读量1.7k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/iridescentzx/article/details/43759001

版权

本文介绍了机器学习中常见的四种方法：Bayes理论用于分类，PCA和LDA是降维技术，K-means是无监督学习的聚类方法。Bayes通过计算概率进行分类；PCA寻找主要特征降维；LDA在保持类别间距离最大化的同时降维；K-means通过迭代更新类中心实现数据划分。

摘要由CSDN通过智能技术生成

最近这十几天真是累成狗。整理一下学到的关于Bayes、PCA、LDA、Kmeans的知识。

首先说，Bayes。贝叶斯理论是根据事件发生的概率来进行估计。其实生活中我们在无意中也会用到，就是根据之前的经验，哪些事情发生的概率大，哪些事件发生的概率小。bayes是计算P(Wi/t) = p(t|Wi)*P(Wi)/p(t)。举一个简单的例子，我们有一组2维的数据，每一个数据有x，y 两个特征。这些数据被分为两类W1、W2，把x，y 理解成点的坐标，那么我们得到一堆点（实际上，3维以上我们就不能具象成具体空间来理解了，就好像线性代数里面，三维以上的向量，我们就不能具象到我们的世界来理解了）。P(Wi) 是事件Wi 发生的概率，可以用W1 和W2 的个数，除以W1 + W2 的结果来估计（因为我们永远不可能知道一个新的点属于W1 或者W2 的概率，只能用现有的数据来估计）。p(x|Wi) 是特征向量t 的概率密度，在这里t = (x,y)是二维向量。我们可以假设数据点满足XX分布，比如正态分布，然后来计算出他们的概率密度。然后我们就能够表示出P(Wi/t)，通过比较W1 和W2 的P(Wi/t) 的大小，可以得到一个boundary（一个判断的条件，在图上标示为一条交界线），从而可以判断下一个到来的点是属于W1还是W2。

PCA和LDA是用来降维的，像上面我们举得例子，是二维特征，在实际操作中，有的数据可能有十几维特征，我们通过降维，来减少特征数目，从而提高数据处理的速度。当然了，降维不可避免的会损失信息。PCA就是主成分分析，通过计算得出最主要的特征