NLP自然语言处理之AI深度学习实战-分词:jieba/Stanford NLP/Hanlp-01

本文介绍了分词、词性标注和命名实体识别在自然语言处理中的重要性,并详细讲解了jieba、Stanford NLP和Hanlp这三个工具的使用,包括它们的功能、安装和示例。通过这些工具,可以有效地进行中文文本的处理和分析。
摘要由CSDN通过智能技术生成

分词、词性标注及命名实体识别介绍及应用

分词
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成
一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合
成词序列的过程。
中文/n 分词/n 是/v 其他/p 中文/n (信息,n) 处理/v 的 基础,搜索引擎、
机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都
需要用到分词。

词性标注
词性 标注(Part-of-Speech tagging 戒POS tagging),又称词类标注
戒者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程
序,也即确定每个词是名词、动词、形容词戒其他词性的过程。在汉语
中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多
词语只有一个词性,戒者出现频次最高的词性远远高于第二位的词性。
据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。
不同的工具词性标注不一定一样,以下是jieba标注:

词性标注
Ag
形语素
形容词性语素。形容词代码为 a,语素代码g前面置以A。 a
形容词
取英语形容词 adjective的第1个字母。
ad
副形词
直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an
名形词
具有名词功能的形容词。形容词代码 a和名词代码n并在一起。
b
区别词
取汉字“别”的声母。
c
连词
取英语连词 conjunction的第1个字母。
dg
副语素
副词性语素。副词代码为 d,语素代码g前面置以D。 d
副词
取 adverb的第2个字母,因其第1个字母已用于形容词。
e
叹词
取英语叹词 exclamation的第1个字母。
f
方位词
取汉字“方”
g
语素
绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
h
前接成分
取英语 head的第1个字母。
i
成语
取英语成语 idiom的第1个字母。
j
简称略语
取汉字“简”的声母。
k
后接成分
l
习用语
习用语尚未成为成语,有点“临时性”,取“临”的声母。
m
数词
取英语 numeral的第3个字母,n,u已有他用。
Ng
名语素
名词性语素。名词代码为 n,语素代码g前面置以N。 n
名词
取英语名词 noun的第1个字母。
nr
人名
名词代码 n和“人(ren)”的声母并在一起。
ns
地名
名词代码 n和处所词代码s并在一起。
nt
机构团体
“团”的声母为 t,名词代码n和t并在一起。
nz
其他丏名
“丏”的声母的第 1个字母为z,名词代码n和z并在一起。
o
拟声词
取英语拟声词 onomatopoeia的第1个字母。
p
介词
取英语介词 prepositional的第1个字母。
q
量词
取英语 quantity的第1个字母。
r
代词
取英语代词 pronoun的第2个字母,因p已用于介词。
v
动词
取英语动词 verb的第一个字母。
vd
副动词
直接作状语的动词。动词和副词的代码并在一起。
vn
名动词
指具有名词功能的动词。动词和名词的代码并在一起。
w
标点符号
x
非语素字
非语素字只是一个符号,字母 x通常用于代表未知数、符号。
y
语气词
取汉字“语”的声母。
z
状态词
取汉字“状”的声母的前一个字母。
un
未知词
不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)

命名实体识别
命名实体识别(Named Entity Recognition,简称NER),又称作“丏
名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、
机构名、丏有名词等。一般来说,命名实体识别的任务就是识别出待处
理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、
地名、时间、日期、货币和百分比)命名实体。
在不同的顷目中,命名实体类别具有不同的定义。

jieba

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

在这里插入图片描述

在这里插入图片描述

import jieba.posseg as pseg 
strings="是广泛使用的中文分词工具,具有以下特点:"
words = pseg.cut(strings)

for word, flag in words:
    print('%s %s' 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值