特征选择

这里写图片描述

特征选择主要就是进行这两步操作

去除特征

我们不仅要添加新的特征,当特征不符合时我们还要去除特征。下面列举了一些可能的去除特征的原因。

这里写图片描述

注意:特征不等于信息

这里写图片描述

特征实际上是信息特点的一个载体,他和信息实际上是两个概念。不要搞混。我们希望有尽量少的特征和尽量多的信息。这样在分类的时候可以减少出错概率。

如果你只有特征而没有信息,那就应该删除这个特征,因为这个特征很有可能会引起算法漏洞。这个特征对应的指标会十分强烈,他没有对应的自己的信息,信息通常是通过算法人为添加的。最后拟合的时候可能就对应的100%的正确率,而这通常情况下是不可能发生的。

特征选择

单变量特征选择

在 sklearn 中自动选择特征有多种辅助方法。多数方法都属于单变量特征选择的范畴,即独立对待每个特征并询问其在分类或回归中的能力。

sklearn 中有两大单变量特征选择工具:SelectPercentile 和 SelectKBest。 两者之间的区别从名字就可以看出:SelectPercentile 选择最强大的 X% 特征(X 是参数),而 SelectKBest 选择 K 个最强大的特征(K 是参数)。

TfIdf向量器中的特征选择

### text vectorization--go from strings to lists of numbers
# df是document frequency的缩写
# max_df的意思是最大丢弃频率,也就是说在50%的文件中都出现这一个单词,那么这个单词会被丢弃
vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5,
                               
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Einstellung

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值