sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法

最新推荐文章于 2024-05-30 16:02:36 发布

Macanv

最新推荐文章于 2024-05-30 16:02:36 发布

阅读量2.9k

点赞数

分类专栏： python nlp 文章标签：机器学习 sklearn-教程

本文链接：https://blog.csdn.net/macanv/article/details/78523961

版权

python 同时被 2 个专栏收录

14 篇文章 4 订阅

订阅专栏

nlp

12 篇文章 7 订阅

订阅专栏

在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候，会默认把长度<2的字符抛弃，例如下面的例子：

x = ['i love you', 'i hate you', 'i']
vect = CountVectorizer(min_df=0)
x_train = vect.fit_transform(x)
x_train.toarray()

其执行后的编码如下：
这里写图片描述

那么如果我们想要保留‘I’这种长度只有1的字符该怎么办呢？具体方法如下：
我么你可以指定最小的df，并且指定切分单词的模式，具体的例子：

x = ['i love you', 'i hate you', 'i']
vect = CountVectorizer(min_df=0, token_pattern='\w+')
x_train = vect.fit_transform(x)
x_train.toarray()

运行结果：
这里写图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Macanv

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法

在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候，会默认把长度<2的字符抛弃，例如下面的例子：x = ['i love you', 'i hate you', 'i']vect = CountVe
复制链接

扫一扫