使用jieba和hanlp进行词性标注

最新推荐文章于 2024-05-13 08:12:46 发布

山山而川_R

最新推荐文章于 2024-05-13 08:12:46 发布

阅读量370

点赞数 3

文章标签：词性标注

本文链接：https://blog.csdn.net/m0_60657960/article/details/136441164

版权

本文介绍了词性标注的概念，它是基于语法特征对词汇进行分类的方法，如名词、动词等。词性标注作为分词后的深化处理，是AI解决自然语言处理高级任务的基础。同时，文中展示了使用jieba和HanLP进行中文词性标注的实例。

摘要由CSDN通过智能技术生成

一、什么是词性标注：

词性：语言中对词的一种分类方法，以语法特征为主要依据，兼顾词汇意义对词进行划分的结果，常见的词性有14种，如：名词，动词，形容词等。

顾名思议，词性标注（part-of-speech tagging，简称POS）就是标注出一段文本中每个词汇的词性。

举个栗子：

我爱自然语言处理

---·

我/RR，爱/V，自然语言/n，处理/vn

词性标注的作用：

词汇标注以分词为基础，是对文本语言的另一个角度的理解，因此也常常成为AI解决NLP领域高阶任务的重要基础环节.

二、词性标注的作用：

词性标注以分词为基础，是对文本语言的另一个角度的理解，因此也常常成为AI解决NLP领域高阶任务的重要基础环节.

import jieba.posseg as pseg

pseg.lcut("我爱北京天安门“）

1.【pair(

import jieba.posseg as pseg

# 待标注的句子
sentence = "我爱北京天安门"

# 使用jieba进行词性标注
words_and_tags = pseg.lcut(sentence)

# 输出词性标注结果
for word, tag in words_and_tags:
    print(f'{word}: {tag}')

# 输出将会是：
# 我: r
# 爱: v
# 北京: ns
# 天安门: ns

2.使用hanlp进行中文词性标注：

import hanlp

# 加载预训练的中文词性标注模型
pos_tagger = hanlp.load(hanlp.pretrained.pos.CTB9_POS_SIX_LABELS_ELECTRA_SMALL_ZH)

# 待标注的句子
sentence = "我爱北京天安门"

# 使用HanLP进行词性标注
tags = pos_tagger.predict(sentence)

# 输出词性标注结果
for word, tag in zip(sentence, tags):
    print(f'{word}: {tag}')

# 注意：实际输出的词性标签可能为简化的6类别标签，如“名词n”，“动词v”等

山山而川_R

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用jieba和hanlp进行词性标注

词性：语言中对词的一种分类方法，以语法特征为主要依据，兼顾词汇意义对词进行划分的结果，常见的词性有14种，如：名词，动词，形容词等。顾名思议，词性标注（part-of-speech tagging，简称POS）就是标注出一段文本中每个词汇的词性。举个栗子：我爱自然语言处理---·我/RR，爱/V，自然语言/n，处理/vn词性标注的作用：词汇标注以分词为基础，是对文本语言的另一个角度的理解，因此也常常成为AI解决NLP领域高阶任务的重要基础环节.
复制链接

扫一扫