sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法

12 篇文章 7 订阅

在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候,会默认把长度<2的字符抛弃,例如下面的例子:

x = ['i love you', 'i hate you', 'i']
vect = CountVectorizer(min_df=0)
x_train = vect.fit_transform(x)
x_train.toarray()

其执行后的编码如下:
这里写图片描述

那么如果我们想要保留‘I’这种长度只有1的字符该怎么办呢?具体方法如下:
我么你可以指定最小的df,并且指定切分单词的模式,具体的例子:

x = ['i love you', 'i hate you', 'i']
vect = CountVectorizer(min_df=0, token_pattern='\w+')
x_train = vect.fit_transform(x)
x_train.toarray()

运行结果:
这里写图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值