jieba提取关键词时筛选词性时单词性选择的一点注意事项

在使用jieba进行关键词提取时,注意到词性筛选的细节至关重要。例如,设置allow_pos=(‘nr’,)将仅选取'n'和'r'词性的词汇,而若设为'nr'字符串,则会选取'n'和'r'两种词性,导致结果差异。此差异可能影响特征工程的准确性。" 126785907,12798816,Java Dao层模式与JDBC事务详解,"['java', '数据库', 'JDBC']
摘要由CSDN通过智能技术生成

最近又在迭代特征工程,发现jieba提取特征词有个需要注意的地方,直接看例子

例子1

>>> import jieba
>>> import jieba.posseg as pseg
>>> s = '我们喜欢支付宝, 苹果'
>>> ws = pseg.cut(s)
>>> for i in ws:
...     print i
...
我们/r
喜欢/v
支付宝/nr
,/x
 /x
苹果/n
>>> allow_pos = ('nr',)
>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)
>>> for t in tags:
...     print t
...
支付宝

>>> allow_pos = ('nr'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值