1.scikit-learn示例
1)数据采集和标记
from sklearn import datasets
digits=datasets.load_digits()
2)特征选择
直观方法,直接使用图片的每一个像素点。8*8=64
数据需要保存为样本个数*特征向量格式的array对象
3)数据清洗
把采集到的、不适合用做机器学习训练的数据进行预处理。
例把200*200分辨率压缩到8*8
4)模型选择
5)模型训练
(1)把数据分为训练集和测试机
from sklearn.cross_validation import train_test_split
Xtrain,Xtest,Ytrain,Ytest=train_test_split(digits.data,digits.target,test_size=0.20,random_state=2)
(2)训练模型
from sklearn import svm
clf=svm.SVC(gamma=0.0001,C=100.)
clf.fit(Xtrain,Ytrain)
6)模型测试
clf.score(Xtest,Ytest)
7)模型保存与加载
from sklearn.externals import joblib
joblib.dump(clf,'c:/users/tianhun/Desktop/digits_svm.pkl')
clf2=joblib.load('c:/users/tianhun/Desktop/digits_svm.pkl')
2.scikit-learn一般性原理和通用规则
1)评估模型对象
学习机器学习算法的原理,其中一项非常重要的任务是了解不同机器学习算法有哪些可调参数,这些参数的意义,以及其对算法的影响。
工程应用,调整算法参数,实现效率和准确度的平衡
2)模型接口
fit()训练模型接口 有监督,fit(X,y)进行训练 无监督,fit(X)
predict()预测接口 分类还可用predict_proba()输出属于各种类型的可能性,predict只输出最高可能性的类型 无监督,聚类分析
score()评价模型接口 分越高越好。 有些模型不能只用score()评价要用查准率和召回率来衡量
transform 无监督 例PCA算法对数据进行降维
3)模型检验
score()
sklearn.metrics抱下面有一系列检测模型的方法
4)模型选择
参考文献
https://blog.csdn.net/qq_34562093/article/details/78973039
《scikit-learn机器学习》