更多代码阅读及测试(词性标注)

2021SC@SDUSC
 


目录

1,使用 jieba.posseg模块进行分词

2,改变分词器

3,paddle模式也支持词性标注



1,使用 jieba.posseg模块进行分词

        

from __future__ import print_function
import sys
sys.path.append("../")
import jieba.posseg as pseg

def cuttest(test_sent):
    result = pseg.cut(test_sent)
    for word, flag in result:
        print(word, "/", flag, ", ", end=' ')
    print("")

测试结果:

      

可以看到每个分词都被标注了它的词性,对于词性不太了解的同学可以参考这里或者参考官方文档


2,改变分词器

        jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器

        

import jieba
import jieba.posseg as psg
dt = psg.POSTokenizer(tokenizer=jieba.dt)
words =dt.cut("你真好,你真棒")
for word in words:
    print(word.word,word.flag)
print(type(dt))

结果:

        

 


3,paddle模式也支持词性标注

from __future__ import print_function
import sys
sys.path.append("../")
import jieba.posseg as pseg

def cuttest(test_sent):
    result = pseg.cut(test_sent,use_paddle=True)
    for word, flag in result:
        print(word, "/", flag, ", ", end=' ')
    print("")

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值