刚刚使用SKLearn学习机器学习进行数据分析,分享一些概念和想法,希望可以大家一起讨论,如果理解或者表达有不准确的地方,请多多指点,不吝赐教,非常感谢~~
** 上一次总结的是《机器学习概述》:https://mp.csdn.net/mdeditor/98843972#
** 下一次会总结《决策树和随机森林》
- sklearn是什么?
全称为scikit-learn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。官网:http://scikit-learn.org/stable/index.html
- sklearn的基本建模流程
无论对数据集采用何种算法又如何划分,sklearn的建模流程只有三步,分别是:
- 模型实例化:需要传入具体的参数,来建立模型的具体实例对象
- 通过模型接口,训练模型:需要传入样本的训练集,所以还要提前对样本划分
- 通过模型的接口查看结果,提取需要的信息
举例代码如下:
from sklearn import tree #导入需要的模块
clf = tree.DecisionTreeClassifier() #实例化
clf = clf.fit(X_train,y_train) #用训练集数据训练模型
result = clf.score(X_test,y_test) #导入测试集,从接口中调用需要的信息