使用jieba和hanlp进行词性标注

本文介绍了词性标注的概念,它是基于语法特征对词汇进行分类的方法,如名词、动词等。词性标注作为分词后的深化处理,是AI解决自然语言处理高级任务的基础。同时,文中展示了使用jieba和HanLP进行中文词性标注的实例。
摘要由CSDN通过智能技术生成

一、什么是词性标注:

        词性:语言中对词的一种分类方法,以语法特征为主要依据,兼顾词汇意义对词进行划分的结果,常见的词性有14种,如:名词,动词,形容词等。

        顾名思议,词性标注(part-of-speech tagging,简称POS)就是标注出一段文本中每个词汇的词性。

举个栗子:

我爱自然语言处理

---·

我/RR,爱/V,自然语言/n,处理/vn

        词性标注的作用:

                词汇标注以分词为基础,是对文本语言的另一个角度的理解,因此也常常成为AI解决NLP领域高阶任务的重要基础环节.

二、词性标注的作用:

        词性标注以分词为基础,是对文本语言的另一个角度的理解,因此也常常成为AI解决NLP领域高阶任务的重要基础环节.

import jieba.posseg as pseg

pseg.lcut("我爱北京天安门“)

1.【pair(

import jieba.posseg as pseg

# 待标注的句子
sentence = "我爱北京天安门"

# 使用jieba进行词性标注
words_and_tags = pseg.lcut(sentence)

# 输出词性标注结果
for word, tag in words_and_tags:
    print(f'{word}: {tag}')

# 输出将会是:
# 我: r
# 爱: v
# 北京: ns
# 天安门: ns

2.使用hanlp进行中文词性标注:

import hanlp

# 加载预训练的中文词性标注模型
pos_tagger = hanlp.load(hanlp.pretrained.pos.CTB9_POS_SIX_LABELS_ELECTRA_SMALL_ZH)

# 待标注的句子
sentence = "我爱北京天安门"

# 使用HanLP进行词性标注
tags = pos_tagger.predict(sentence)

# 输出词性标注结果
for word, tag in zip(sentence, tags):
    print(f'{word}: {tag}')

# 注意:实际输出的词性标签可能为简化的6类别标签,如“名词n”,“动词v”等

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值