转换器- 特征工程的父类
前言
特征工程中的步骤
- 实例化 (实例化的是一个转换器类,Transformer)
- 调用 fit_transform (对于文档建立分类词频矩阵,不能同时调用)
特征工程的接口称之为转换器,转换器调用的几种形式如下:
( x - mean ) / std
x : 特征
mean: 该列的平均值
std : 标准差
- fit_transform()
- fit() #计算每一列的平均值和标准差
- transform() #利用fit()的结果进行 ( x - mean ) / std 的最终转换
估计器(sklearn机器学习算法的实现)
估计器介绍
在sklearn中,估计器(estimator)是一个重要的角色,是一类实现算法的API
-
用于分类的估计器:
sklearn.neighbors k-近邻算法 sklearn.naive_bayes 贝叶斯 sklearn.linear_model.LogisticRegression 逻辑回归 sklearn.tree 决策树与随机森林
-
用于回归的估计器
sklearn.linear_model.LinearRegression 线性回归 sklearn.linear_model.Ridge 岭回归
-
用于无监督学习的估计器
sklearn.cluster.KMeans 聚类
估计器工作流程
-
实例化一个estimator
-
estimator.fit(x_train , y_train)
将训练集的特征值和目标值传进来,然后进行训练 -->调用完毕,模型生成
-
模型评估
- 直接对比真实值和预测值
y_predict = estimator.predict( x_test )
进行比对: y_test == y_predict ----> 生成布尔值,看true的多少
- 计算准确率
accuracy = estimator.score(x_test , y_test) 将测试集的特征值和目标值传入,进行比较