数据清洗，pca，one-hot编码，auc

最新推荐文章于 2022-04-28 16:29:11 发布

学号_Y_1055

最新推荐文章于 2022-04-28 16:29:11 发布

阅读量1.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46519036/article/details/106820795

版权

本文介绍了鸢尾花数据集的PCA降维方法，解释了PCA如何寻找特征向量并降维。此外，讨论了数据清洗中的一种情况——one-hot编码，用于解决某些特征无法直接比较的问题。最后提到了AUC作为评估模型性能的标准，以及过拟合的概念和避免方法。

摘要由CSDN通过智能技术生成

在这里插入图片描述
包：Fuzzywuzzy-Levenshtenin distance：
模糊查询和替换，比如用户输入ABCDEF，但是本来的关键词是ABCDEGF，在包中有一个词典，会进行匹配，找到最相似的词。如果距离足够的小，就认为是错误的所有，自动替换。任意添加，替换和删除一个字符，距离就是1，比如真实值是ABCD，用户输入ABD,ABED,ABECD，距离都是1

鸢尾花数据集

在这里插入图片描述

在这里插入图片描述
鸢尾花有4个特征，不容易画图，我们可以使用PCA降维
因为有 150个数据，每个数据有4个特征，所以是一个（150，4）的矩阵，使用PCA降维，X^TX可以得到一个4行4列的矩阵，然后可以得到它的特征值和特征向量，得到特征值λ1，λ2，λ3，λ4和特征向量μ1，μ2，μ3，μ4.将λ从大到小排列，可以找到哪个特征向量μ的方向对结果影响最大，选择前两个μ建立坐标系。将

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。