scikit-learn中的数据
数据格式:2维数组或者矩阵,[n_samples, n_features]
包含数据集:Iris data ,digits data, boston data(housing price), diabetes data例如:
from sklearn.datasets import load_iris >>> iris = load_iris() -->其中含有iris.data和iris.target我们可以通过print(data.DESCR)去查看关于数据集的详细信息
scikit-learn中的机器学习基本原理
线性回归:
from sklearn.linear_model import LinearRegression模型中的参数是可以初始化的,如:
model = LinearRegression(normalize=True)当给定训练数据x和y时,模型拟合只需要调用:
model.fit(X, y)另外,可以通过调用model的coef_值来查看训练得到的系数
最近邻算法:
from sklearn import neighborsneighbors中包含了KNN算法模型,通过以下调用(参数设置最近邻N的个数):
knn = neighbors.KNeighborsClassifier(n_neighbors=1) knn.fit(X, y)由于KNN算法是不需要训练的,待预测样本直接通过给定的样本找到最近的样本进行相应分类即可:
knn.predict(x),例如x = [[3, 5, 4, 2]]
线性SVM分类:
from sklearn.svm import LinearSVCLinearSVC(loss='l1')或l2
从以上两个例子可以看到,我们将不同类型算法的“估算器”赋予给model变量,model在对训练样本学习时,只需要调用model.fit(X, y);
对于监督式的评估器,预测新数据的方式为:model.predict(X_new)
对于分类问题,有些评估器提供model.predict_proba()方法,返回的是每种类别的概率,概率最大的类别对应了model.predict()
对于非监督式的评估器,可以对特征进行转换,无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。
例如model.transform()和model.fit_transform(x, y = None)这二者的区别在于
fit_transform需要先拟合数据,这里所说的拟合,不是指含有目标Y的那种拟合,而是根据给定数据找到相应的统计信息,如均值和标准差;
而transform一般用于测试数据,不需要再拟合,而是直接使用训练数据拟合好的统计信息,如均值和标准差,对测试数据进行处理;
其它的模型方法,需要使用时再查阅即可。
数据降维PCA
PCA,主成分分析,可以对数据进行降维,以手写字符为例:
from sklearn.decomposition import PCA >>> pca = PCA(n_components=2) ##降至2个维度 >>> proj = pca.fit_transform(digits.data) ## >>> plt.scatter(proj[:, 0], proj[:, 1], c=digits.target)
高斯朴素贝叶斯分类
高斯朴素贝叶斯分类方法是种简单快速的方法,如果简单且快速的方法足以使结果满意,则无需浪费过多CPU资源设计复杂算法-->sklearn.naive_bayes.GaussianNB
高斯朴素贝叶斯对每个相同label的数据进行高斯拟合,然后对测试数据进行大致的分类,尽管对于现实世界的拟合不是很准确,但也很不错,特别对于文本数据
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_splittrain_test_split可以自动把数据随机分成训练集和测试集:
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target)该算法调用方法与上一致,具体使用再好好研究其中参数:
clf = GaussianNB()
clf.fit(X_train, y_train)测试时
predicted = clf.predict(X_test)
在模块sklearn.metrics中有许多成熟的度量方法:
from sklearn import metrics >>> print(metrics.classification_report(expected, predicted))对于分类的评判,会返回精度precision、召回率recall、f1-score和support
另一种是混淆矩阵,调用方式如下:
metrics.confusion_matrix(expected, predicted)可以帮助我们看到每一类的误分情况
有时候我们可以将每一维特征和结果的关系画图,手工选择有用的特征
Gradient Boosting Tree Regression
GBT是一种很强大的回归树
from sklearn.ensemble import GradientBoostingRegressor
clf = GradientBoostingRegressor() clf.fit(X_train, y_train) predicted = clf.predict(X_test)
(回归)决策树Decision Tree
from sklearn.tree import DecisionTreeRegressor
待续……