机器学习(四)sklearn转换器和估计器
一. 转换器
这个其实之前的特征工程部分已经用到了,即,之前常用的fit_transform()方法
在特征工程当中,我们回顾一下我们是如何处理特征值的。通常,分为两个步骤:
-
step1、实例化 (实例化的是一个转换器类(Transformer))
-
step2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)
但实际上,fit和transform是两个过程,sklearn当中也单独提供了这两个方法:
- fit:输入数据,但是不做任何事情
- transform:进行数据的转换
- fit_transform():输入入数据直接转换
二.估计器
实际上,这个是一个数学概念,在百度当中的定义如下:
用来估计总体未知参数用的统计量。当经测定的具体数值(https://baike.baidu.com/item/数值)代入估计量时,它就是一个具体的数值,称为估计值,英文是estimator。
总之:估计器就是用来估计未知参数的,训练集以及测试集在经过估计器处理之后,就会输出结果精度,以及预测结果。
针对不同的算法,sklearn为我们提供了不同的估计器:
- 用于分类问题的估计器:
sklearn.neighbors # k-近邻算法
sklearn.naive_bayes #贝叶斯
sklearn.linear_model.LogisticRegression # 逻辑回归
- 用于回归问题的估计器
sklearn.linear_model.LinearRegression #线性回归
sklearn.linear_model.Ridge # 岭回归