数据清洗,pca,one-hot编码,auc

本文介绍了鸢尾花数据集的PCA降维方法,解释了PCA如何寻找特征向量并降维。此外,讨论了数据清洗中的一种情况——one-hot编码,用于解决某些特征无法直接比较的问题。最后提到了AUC作为评估模型性能的标准,以及过拟合的概念和避免方法。
摘要由CSDN通过智能技术生成

在这里插入图片描述
包:Fuzzywuzzy-Levenshtenin distance:
模糊查询和替换,比如用户输入ABCDEF,但是本来的关键词是ABCDEGF,在包中有一个词典,会进行匹配,找到最相似的词。如果距离足够的小,就认为是错误的所有,自动替换。任意添加,替换和删除一个字符,距离就是1,比如真实值是ABCD,用户输入ABD,ABED,ABECD,距离都是1

鸢尾花数据集

在这里插入图片描述

在这里插入图片描述
鸢尾花有4个特征,不容易画图,我们可以使用PCA降维
因为有 150个数据,每个数据有4个特征,所以是一个(150,4)的矩阵,使用PCA降维,XTX可以得到一个4行4列的矩阵,然后可以得到它的特征值和特征向量,得到特征值λ1,λ2,λ3,λ4和特征向量μ1,μ2,μ3,μ4.将λ从大到小排列,可以找到哪个特征向量μ的方向对结果影响最大,选择前两个μ建立坐标系。将

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值