本文用了pipeline将pca和logistic chain起来,并且用了GridSearchCV选择了最佳参数。
1.主要函数介绍
1.1 PCA
当矩阵为n*n时,其运算复杂度为n^3
http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA
其主要参数有sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False),其中的主要原理及用法,这篇文章已经讲的非常好了http://blog.csdn.net/u012162613/article/details/42192293
要完成的了解这个函数,还需要彻底的了解主成分分析法。
这篇文章中主要调整的参数是保留的维度及explained_variance_,后者可以理解为对原始信息的保留程度。
1.2 LogisticRegression
具体参见
http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression
本文主要调整是它的惩罚因子C
1.3 axvline
matplotlib.pyplot.axvline(x=0, ymin=0, ymax=1, hold=None, **kwargs)
在图中话一条竖直(vertical)的线
1.4 plt.axes
plt.axes()文中的参数是一个形如