文本型数据特征化(特征提取)

如果样本本身就是数字型的,那么样本本身就可以作为特征用于训练我们的模型,那么如果样本本身是文字型样本,如做文本分析等机器学习工作时,该如何提取特征?

1. 词集模型

单词构成的集合,集合中每个元素都只有一个。

2. 词袋模型

统计文本中出现的单词,与其出现次数。
使用sklearn实现的词袋模型示例如下:
在这里插入图片描述

3. TF-IDF模型(term frequency–inverse document frequency,词频与逆向文件频率)

是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF模型通常和词袋模型共同使用,用于处理词袋模型生成的数组。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值