一、什么是词性标注:
词性:语言中对词的一种分类方法,以语法特征为主要依据,兼顾词汇意义对词进行划分的结果,常见的词性有14种,如:名词,动词,形容词等。
顾名思议,词性标注(part-of-speech tagging,简称POS)就是标注出一段文本中每个词汇的词性。
举个栗子:
我爱自然语言处理
---·
我/RR,爱/V,自然语言/n,处理/vn
词性标注的作用:
词汇标注以分词为基础,是对文本语言的另一个角度的理解,因此也常常成为AI解决NLP领域高阶任务的重要基础环节.
二、词性标注的作用:
词性标注以分词为基础,是对文本语言的另一个角度的理解,因此也常常成为AI解决NLP领域高阶任务的重要基础环节.
import jieba.posseg as pseg
pseg.lcut("我爱北京天安门“)
1.【pair(
import jieba.posseg as pseg
# 待标注的句子
sentence = "我爱北京天安门"
# 使用jieba进行词性标注
words_and_tags = pseg.lcut(sentence)
# 输出词性标注结果
for word, tag in words_and_tags:
print(f'{word}: {tag}')
# 输出将会是:
# 我: r
# 爱: v
# 北京: ns
# 天安门: ns
2.使用hanlp进行中文词性标注:
import hanlp
# 加载预训练的中文词性标注模型
pos_tagger = hanlp.load(hanlp.pretrained.pos.CTB9_POS_SIX_LABELS_ELECTRA_SMALL_ZH)
# 待标注的句子
sentence = "我爱北京天安门"
# 使用HanLP进行词性标注
tags = pos_tagger.predict(sentence)
# 输出词性标注结果
for word, tag in zip(sentence, tags):
print(f'{word}: {tag}')
# 注意:实际输出的词性标签可能为简化的6类别标签,如“名词n”,“动词v”等