特征工程和网路搜索交叉验证

最新推荐文章于 2022-10-09 00:52:47 发布

傲慢与偏见·

最新推荐文章于 2022-10-09 00:52:47 发布

阅读量202

点赞数

文章标签： python 机器学习数据挖掘人工智能

本文链接：https://blog.csdn.net/q632655672/article/details/106212306

版权

正则化
作用：
①解决了过拟合
②避免了不可逆矩阵
使用：
标准化
x = (features-mean_)/std_
归一化

概念：
（x-mean）/（max-min）
或者 (x- min)/(max_-min_)

from sklearn.preprocessing import MinMaxScaler
range = feature_range=(0, 1) 想要调整的数据范围是多少
minmax = MinMaxScaler(range)

#fit会计算features中的最大值和最小
#minmax.fit(features)

#transform 会使用刚才fit中的最大最小值套用公式，返回结果
#minmax.transform(features)

#fit和transform给拼接在一块了
x = minmax.fit_transform(features)

#将归一化的数据x还原
inv_a = minmax.inverse_transform(x)

查准率和召回率
模型评估很高，但是可能是数据偏斜，所以还需要判断是否是高查准率和高召回率
查准率：precision
召回率：recall
网格搜索和交叉验证
estimator 估计器
param_grid 超参数,要求数据类比必须是哈希包裹序列 {‘n_neighbors’:
目的:找到一个组得分高又稳的数据(泛化性不错的,又准确的模型)

网格搜索:循环算法,使用不同超参数生成大量的模型,找到准确率最高的模型。(如果只考虑得分高就好,那么失去了泛化性)

交叉验证:循环算法,把数据集随机分成n个等分,使用不通过的数据进行测试评估,评估准确率的稳定程度

如果使用gc得到的结果依然是过拟合的或欠拟合的,那么一定是数据有问题
文本的特征工程
概念：①文本是一维、②字符不能进行加减乘除、③文本特征工程把文字变成二维可计算数字