《scikit-learn机器学习》 - PCA算法原理解释和k-均值算法【单纯理解】

PCA算法

PCA算法是Principal Component Analysis的简称
它是一种分析算法,目的是将维度约减的算法
白话文讲就是把高维度的数据损失最小的情况下转化为低维度的数据的算法


n维的降成k维的时候,需要k个向量
如果我们要将一个二维的数据降成一维的数据,那么需要有一个u
如果我们要将一个三维的数据降成二维数据,就需要一个u1和一个u2


要向量就是把数据的投影记录下来,然后最终使得投影的误差最小化,就是PCA算法的解法


在期间,我们会遇到很多问题,比如每个维度的数据的差距过大,这个时候就可以引入一个概论,叫做数据归一化和缩放
就是用类似正则化的思想将已有的数据变成差距较小的数据,提高PCA运算的效率
在这里插入图片描述
还有一个协方差矩阵,公式为:
在这里插入图片描述
在这里插入图片描述


对于如何将数据降维然后又还原,这个原理暂时没有看懂,如果有大佬看到我这个问题,可以帮忙解决一下吗?感激不尽

书中提到了俩种方法对数据进行降维操作,一个是用numpy,一个是用sklearn直接掉包操作,其实第一个numpy的我没看懂,因为最开始的原理就没搞清楚,第二个sklearn的方法就是直接掉用写好的包,没有原理的解释。


PCA的作用就是为了加快监督学习的速度,让它更快一点


k-均值算法

这是本书中唯一一个无监督学习的算法,我觉得无监督学习和半监督学习是一个很好的发展趋势,因为有时候数据标记真的需要很长的时间,无监督学习就能很好的避开这一点。


k-均值算法是一种聚类问题的解决算法,它与KNN看起来很像,但是本质是不一样的。


书中说:这个算法可以运用到市场细分中,根据用户的数据进行一个更小的细分,然后也可以用到社交网络中去,对于不用的人群拥有不同的特征,来进行分类。


但是说了这么多,如何来使用k-均值算法呢?
大体分为俩步:

  • 给聚类中心分配点
    • 训练全部的样本,然后分配到最近的聚类中
  • 移动聚类中心
    • 移到这个聚类的平均值处,直到我们这个聚类中心不再移动为止

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Scikit-learn 是一个用于机器学习的 Python 库,提供了多种常用的机器学习算法和工具函数。以下是一些常用的函数及其用途的介绍: 1. sklearn.model_selection.train_test_split:用于将数据集划分为训练集和测试集,常用于评估模型性能。 2. sklearn.preprocessing.StandardScaler:用于对数据进行标准化处理,将特征数据转换为均值为0,方差为1的分布。 3. sklearn.linear_model.LinearRegression:线性回归模型,用于建立线性关系模型并进行预测。 4. sklearn.tree.DecisionTreeClassifier:决策树分类器,用于通过构建决策树模型进行分类预测。 5. sklearn.ensemble.RandomForestClassifier:随机森林分类器,通过集成多个决策树进行分类预测,提高预测性能。 6. sklearn.cluster.KMeans:K-means 聚类算法,将数据集划分为 K 个簇,常用于无监督学习中的聚类任务。 7. sklearn.metrics.accuracy_score:用于计算分类模型的准确率,即预测结果与真实标签之间的一致性程度。 8. sklearn.metrics.mean_squared_error:用于计算回归模型的均方误差,衡量预测值与真实值之间的差异程度。 9. sklearn.decomposition.PCA:主成分分析算法,用于降维和特征提取,将高维数据投影到低维空间。 10. sklearn.model_selection.GridSearchCV:用于进行网格搜索和交叉验证,自动选择最佳的模型参数组合。 这只是 Scikit-learn 中一小部分常用函数的介绍,还有很多其他函数可以用于不同的机器学习任务。你可以通过查阅 Scikit-learn 的官方文档来获取更详细的信息和示例代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bessie_Lee_gogogo

你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值