python 文本向量化_TFIDF向量化文档时出现问题？

最新推荐文章于 2022-11-12 17:18:32 发布

星落樱耀

最新推荐文章于 2022-11-12 17:18:32 发布

阅读量280

点赞数

文章标签： python 文本向量化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42470359/article/details/113966156

版权

我使用具有以下样式的标记对文本blob进行矢量化：hi__(how are you), 908__(number code), the__(POS)

如您所见，令牌使用__(info)附加了一些信息，我使用tfidf提取关键字，如下所示：

^{pr2}$

问题是，当我执行上述提取关键字的过程时，我怀疑向量器对象正在从textblob中删除括号。因此，我可以使用tfidf向量器对象中的哪个参数来保存括号中的此类信息？在

更新

我还试图：from sklearn.feature_extraction.text import TfidfVectorizer

def dummy_fun(doc):

return doc

tfidf = TfidfVectorizer(

analyzer='word',

tokenizer=dummy_fun,

preprocessor=dummy_fun,

token_pattern=None)

以及from sklearn.feature_extraction.text import TfidfVectorizer

def dummy_fun(doc):

return doc

tfidf = TfidfVectorizer(

tokenizer=dummy_fun,

preprocessor=dummy_fun,

token_pattern=None)

但是，这将返回一个字符序列，而不是我已经标记的标记：['e', 's', '_', 'a', 't', 'o', 'c', 'r', 'i', 'n']

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 文本向量化_TFIDF向量化文档时出现问题？

我使用具有以下样式的标记对文本blob进行矢量化：hi__(how are you), 908__(number code), the__(POS)如您所见，令牌使用__(info)附加了一些信息，我使用tfidf提取关键字，如下所示：^{pr2}$问题是，当我执行上述提取关键字的过程时，我怀疑向量器对象正在从textblob中删除括号。因此，我可以使用tfidf向量器对象中的哪个参数来保存括号中...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。