更多代码阅读及测试（词性标注）

最新推荐文章于 2024-07-28 15:46:11 发布

拉克丝の碎花裙

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量105

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/qq_51945755/article/details/120957919

版权

笔记专栏收录该内容

21 篇文章 0 订阅

订阅专栏

2021SC@SDUSC

1，使用 jieba.posseg模块进行分词

2，改变分词器

3，paddle模式也支持词性标注

1，使用 jieba.posseg模块进行分词

from __future__ import print_function
import sys
sys.path.append("../")
import jieba.posseg as pseg

def cuttest(test_sent):
    result = pseg.cut(test_sent)
    for word, flag in result:
        print(word, "/", flag, ", ", end=' ')
    print("")

测试结果：

可以看到每个分词都被标注了它的词性，对于词性不太了解的同学可以参考这里或者参考官方文档

2，改变分词器

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器

import jieba
import jieba.posseg as psg
dt = psg.POSTokenizer(tokenizer=jieba.dt)
words =dt.cut("你真好，你真棒")
for word in words:
    print(word.word,word.flag)
print(type(dt))

结果：

3，paddle模式也支持词性标注

from __future__ import print_function
import sys
sys.path.append("../")
import jieba.posseg as pseg

def cuttest(test_sent):
    result = pseg.cut(test_sent,use_paddle=True)
    for word, flag in result:
        print(word, "/", flag, ", ", end=' ')
    print("")