手写数字识别

qq_34910948

于 2020-08-18 16:10:01 发布

阅读量306

点赞数

本文链接：https://blog.csdn.net/qq_34910948/article/details/108080187

版权

from sklearn.decomposition import PCA
from sklearn.datasets import fetch_lfw_people
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

人脸识别

# fig=plt.figure(figsize=(8,4))
fig,axes=plt.subplots(4,5,figsize=(8,4),subplot_kw={"xticks":[],"yticks":[]})
# fig 画布
# axes对象
for i,ax in enumerate(axes.flat):
    ax.imshow(faces.images[i,:,:],cmap="gray")

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IRz7gCPH-1597737981535)(output_2_0.png)]

axes.shape

(4, 5)

axes.flat
# 二维转一维

<numpy.flatiter at 0x1d2351a8080>

for i,ax in enumerate(axes.flat):
    ax.imshow(faces.images[i,:,:],cmap="gray")

faces.images.shape

(1348, 62, 47)

faces.data.shape

(1348, 2914)

faces.target

array([1, 3, 3, ..., 7, 3, 5], dtype=int64)

faces.data.shape

(1348, 2914)

# 降维
pca=PCA(150).fit(faces.data)

v=pca.components_
v.shape

(150, 2914)

fig,axes=plt.subplots(3,8,figsize=(8,4),subplot_kw={"xticks":[],"yticks":[]})

for i,ax in enumerate(axes.flat):
    ax.imshow(v[i,:].reshape(62,47),cmap="gray")

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BPIiNsH9-1597737981537)(output_12_0.png)]

数字识别

data=pd.read_csv("digit recognizor.csv")

data.shape

(42000, 785)

x=data.iloc[:,1:]
y=data.iloc[:,0]

x.shape

(42000, 784)

data.head()

	label	...
0	1	...
1	0	...
2	1	...
3	4	...
4	0	...

5 rows × 785 columns

2 画累计方差贡献率，找最佳降维后维度的范围

pca_line=PCA().fit(x)
plt.figure(figsize=(20,5))

<Figure size 1440x360 with 0 Axes>




<Figure size 1440x360 with 0 Axes>

plt.plot(np.cumsum(pca_line.explained_variance_ratio_))
plt.xlabel("number of components after dimension reduction")
plt.ylabel("cumulative explained variance ratio")
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ne4yh5OH-1597737981538)(output_21_0.png)]

	pixel0	pixel1	pixel2	pixel3	pixel4	pixel5	pixel6	pixel7	pixel8	pixel9	...	pixel774	pixel775	pixel776	pixel777	pixel778	pixel779	pixel780	pixel781	pixel782	pixel783

42000 rows × 784 columns

# 找出大致范围，继续缩小最佳维度范围
score=[]
for i in range(1,101,10):
    x_dr = PCA(i).fit_transform(x)
    once=cross_val_score(RFC(n_estimators=10,random_state=0)
                        ,x_dr,y,cv=10).mean()
    score.append(once)
plt.figure(figsize=(20,5))
plt.show()

<Figure size 1440x360 with 0 Axes>

# 细化学习曲线，找出降维后的最佳维度
score=[]
for i in range(10,25):
    x_dr = PCA(i).fit_transform(x)
    once=cross_val_score(RFC(n_estimators=10,random_state=0)
                        ,x_dr,y,cv=10).mean()
    score.append(once)
plt.figure(figsize=(20,5))
plt.plot(range(10,25),score)
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oOlvstMx-1597737981540)(output_24_0.png)]

# 找出最佳维度进行降维，查看模型效果
x_dr = PCA(23).fit_transform(x)

cross_val_score(RFC(n_estimators=100,random_state=0),x_dr,y,cv=5).mean()

0.9461904761904762

qq_34910948

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
手写数字识别

from sklearn.decomposition import PCAfrom sklearn.datasets import fetch_lfw_peoplefrom sklearn.ensemble import RandomForestClassifier as RFCfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as pltimport pandas as pdimport nu
复制链接

扫一扫