07_LTP语言技术平台

lsqzedu

已于 2022-01-19 15:32:12 修改

阅读量1.1k

点赞数

分类专栏：自然语言处理与知识图谱文章标签： LTP RNN 自然语言处理

于 2022-01-18 21:45:39 首次发布

本文链接：https://blog.csdn.net/lsqzedu/article/details/122569090

版权

自然语言处理与知识图谱专栏收录该内容

8 篇文章 5 订阅

订阅专栏

在这里插入图片描述

文章目录

LTP
LTP高级操作

博文配套视频课程：自然语言处理与知识图谱

LTP

开始使用LTP

使用LTP4.0，您仅仅需要pip install ltp，就能轻松体验自然语言处理技术。您也可以点击这里下载历史版本的LTP。强烈建议选择LTP4.x的版本对Python非常友好。

基于多任务学习框架进行统一学习，使得全部六项任务可以共享语义信息，达到了知识迁移的效果。既有效提升了系统的运行效率，又极大缩小了模型的占用空间
基于预训练模型进行统一的表示，有效提升了各项任务的准确率
基于教师退火模型蒸馏出单一的多任务模型，进一步提高了系统的准确率
基于PyTorch框架开发，提供了原生的Python调用接口，通过pip包管理系统一键安装，极大提高了系统的易用性

快速上手

使用LTP分句只需要调用ltp.sent_split函数。一般来说一篇文章首先要拆分成独立句子，然后在通过句子进行分词，最后再来实现词性、词义、依存语法分析等操作。

from ltp import LTP
ltp = LTP()
sents = ltp.sent_split(["他叫汤姆去拿外衣。", "汤姆生病了。他去了医院。"])
sents
# [
#   "他叫汤姆去拿外衣。",
#   "汤姆生病了。",
#   "他去了医院。"
# ]

分词

使用LTP分词非常简单，下面是一个简短的例子：

from ltp import LTP

ltp = LTP()

segment, _ = ltp.seg(["他叫汤姆去拿外衣。"])
# [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]

# 对于已经分词的数据
segment, hidden = ltp.seg(["他/叫/汤姆/去/拿/外衣/。".split('/')], is_preseged=True)

词性标注

from ltp import LTP

ltp = LTP()

seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
pos = ltp.pos(hidden)
# [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
# [['r', 'v', 'nh', 'v', 'v', 'n', 'wp']]

LTP高级操作

命名实体识别

词性标注在本质上是分类问题，将语料库中的单词按词性分类。一个词的词性由其在所属语言的含义、形态和语法功能决定。以汉语为例，汉语的词类系统有18个子类，包括7类体词，4类谓词、5类虚词、代词和感叹词。词类不是闭合集，而是有兼词现象，例如“制服”在作为“服装”和作为“动作”时会被归入不同的词类，因此词性标注与上下文有关。对词类的理论研究可以得到基于人工规则的词性标注方法，这类方法对句子的形态进行分析并按预先给定的规则赋予词类。

from ltp import LTP

ltp = LTP()

seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
ner = ltp.ner(hidden)
# [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
# [[('Nh', 2, 2)]]

tag, start, end = ner[0][0]
print(tag,":", "".join(seg[0][start:end + 1]))
# Nh : 汤姆

语义角色标注

自然语言分析技术大致分为三个层面：词法分析、句法分析和语义分析。语义角色标注是实现浅层语义分析的一种方式。在一个句子中，谓词是对主语的陈述或说明，指出“做什么”、“是什么”或“怎么样，代表了一个事件的核心，跟谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色。主要有：施事者（Agent）、受事者（Patient）、客体（Theme）、经验者（Experiencer）、受益者（Beneficiary）、工具（Instrument）、处所（Location）、目标（Goal）和来源（Source）等

from ltp import LTP

ltp = LTP()

seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
srl = ltp.srl(hidden)
# [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
# [
#     [
#         [],                                                # 他
#         [('ARG0', 0, 0), ('ARG1', 2, 2), ('ARG2', 3, 5)],  # 叫 -> [ARG0: 他, ARG1: 汤姆, ARG2: 去拿外衣]
#         [],                                                # 汤姆
#         [],                                                # 去
#         [('ARG0', 2, 2), ('ARG1', 5, 5)],                  # 拿 -> [ARG0: 汤姆, ARG1: 外衣]
#         [],                                                # 外衣
#         []                                                 # 。
#     ]
# ]
#   srl = ltp.srl(hidden, keep_empty=False)
# [
#     [
#         (1, [('ARG0', 0, 0), ('ARG1', 2, 2), ('ARG2', 3, 5)]), # 叫 -> [ARG0: 他, ARG1: 汤姆, ARG2: 去拿外衣]
#         (4, [('ARG0', 2, 2), ('ARG1', 5, 5)])                  # 拿 -> [ARG0: 汤姆, ARG1: 外衣]
#     ]
# ]

依存句法分析

使用语义依存刻画句子语义，好处在于不需要去明白词汇本身的意思，而是通过词汇所承受的语义框架来描述该词汇，而其数目相对词汇来说数量是小很多的。这样一来，大部分的句子都可以用这个框架来表示，同时，我们又能总结出这句话大概讲了些什么。需要注意的是，在依存句法当中，虚节点ROOT占据了0位置，因此节点的下标从1开始。

from ltp import LTP

ltp = LTP()

seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
dep = ltp.dep(hidden)
# [['他', '叫', '汤姆', '去', '拿', '外衣', '。']]
# [
#     [
#         (1, 2, 'SBV'),
#         (2, 0, 'HED'),    # 叫 --|HED|--> ROOT
#         (3, 2, 'DBL'),
#         (4, 2, 'VOB'),
#         (5, 4, 'COO'),
#         (6, 5, 'VOB'),
#         (7, 2, 'WP')
#     ]
# ]