PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)

最新推荐文章于 2023-11-24 17:02:35 发布

柳家山头号矿工

最新推荐文章于 2023-11-24 17:02:35 发布

阅读量180

点赞数

分类专栏：数据挖掘实验文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dc12499574/article/details/123727083

版权

数据挖掘实验专栏收录该内容

11 篇文章 1 订阅

订阅专栏

##############################数据处理
#数据导入 $$ 数据转换
import os
import numpy as np
import pandas as pd
from collections import defaultdict

def convert_number():
    try:
        return float(x)
    except ValueError:
        return np.nan

converters=defaultdict(convert_number)
converters[1558]=lambda x: 1 if x.strip() == "ad." else 0

#问号处理
for i in range(0,1558):
    converters[i]=lambda x: np.nan if x.strip() == "?" else x
ads=pd.read_csv("ad.data",header=None,converters=converters)
ads.head()

#特征抽取
ads.dropna(inplace=True)
X=ads.drop(1558,axis=1).values
y=ads[1558]
X[:5]

#############################主成分分析
from sklearn.decomposition import PCA
pca=PCA(n_components=5)
Xd=pca.fit_transform(X)

np.set_printoptions(precision=3,suppress=True)
pca.explained_variance_ratio_

##PCA评估
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
clf=DecisionTreeClassifier()
scores_reduced=cross_val_score(clf,Xd,y,scoring='accuracy')
print("the accuracy is {0:.1f}%".format(100*np.mean(scores_reduced)))

#作图
%matplotlib inline
from matplotlib import pyplot as plt
#类别获取
classes=set(y)
#颜色指定
colors=['red','green']
for cur_class,color in zip(classes,colors):
    mask=(y==cur_class).values
    plt.scatter(Xd[mask,0], Xd[mask,1], marker='o', color=color, label=int(cur_class))
plt.legend() 
plt.show()

柳家山头号矿工

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

柳家山头号矿工

博客等级

码龄4年

732
原创

242
点赞

1502
收藏

162
粉丝

关注

私信

热门文章

分类专栏

最新评论

高数_证明_多元函数极值的充分条件
qq_45457675: 太酷啦原来依靠这些知识已经能轻松证明，感谢。写得相当明白，简洁容易理解
高等代数_证明_矩阵乘以自身的转置的特征值不小于0
博士986: 要求A是实矩阵
高数_证明_多元函数极值的充分条件
m0_63049725: 各阶顺序主子式大于0，则矩阵正定
对二进制加减法与规格化的思考
做而论道_CS: 至于移码，可以理解为：　对二进制数的 ”加密、解密“。加密：二进制数＋偏移量＝移码。解密：移码－偏移量＝二进制数。偏移量，是神马数值呢？　在不同的应用场合，偏移量有不同的数值。　　到时候，你就知道了。这种加解密的方法，也太简单了！　小事一桩，不值一提。
对二进制加减法与规格化的思考
做而论道_CS: 另外，由补码换算到十进制数，也极其简单。你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1；如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。　例如，有一个补码：1110 0001，它代表的十进制是：－128 + 64 + 32 + 1= －31。再看，另一个补码：0110 0001，它代表的十进制是：0 + 64 + 32 + 1 = ＋97。仅仅使用【进制转换】，不就完事了！－－－－－－－－－－－－－－－－－－－－－－那么，所谓的：　机器数真值符号位原码反补码正数三码与正数相同　负数取反加一符号位不变符号位也参加运算模同余 ... 这一大堆乱七八糟的概念，不都是垃圾嘛！进位，是小学二年级的知识点吧？　舍弃进位，很难理解吗？　老外竟然能弄出那么大一堆概念！　老外的数学水平，由此可见一斑。谁要是跟老外学算术，立刻、马上，直接就掉沟里去了！我们的计算机老师，也不懂数学，只知道跟风。　一天一天的，在大学里，兜着圈子讲小学的知识。　真是毁人不倦坑人不浅！这些老师，捡个鞋拔子就当成玉如意了。　天天蒙骗学生，赚取名声和丰厚的讲课费。　　顺便再抓几个学生挂科，抖一下威风！现在知道我们缺芯片用的原因了吧！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。