NLP基础知识(三)-AI应用篇

在这里插入图片描述
文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。

简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(premise),另一个文本作为假设(hypothesis),如果根据前提P能够推理得出假设H,那么就说P蕴含H。这跟一阶逻辑中的蕴含关系是类似的。

如果能从前提句(premise)能推出假设句(hypothesis)或者这两句话非常相似说的是同一个意思,那么就是蕴含关系(entailment),否则就是矛盾关系(contradiction),如果看不出就是中立的(neutral)。

问答系统、阅读理解、信息检索和信息抽取等领域均有应用。
在这里插入图片描述
这个例子中前提P是“A dog jumping for a Frisbee in the snow”,意思“一只狗在雪地中接飞盘玩”。
假设1:“一个动物正在寒冷室外玩塑料玩具”,蕴含关系(entailment),这是能够从前提推理出来的;
假设2:“一只猫用它的前爪洗脸和胡须”,这跟前提是冲突的(contradiction);
假设3:“一只宠物正在和主人玩游戏”,与前提既不是蕴含关系也没有冲突,把它定义成中立的(neutral)。
文本蕴含识别(Recognizing Textual Entailment,RTE)主要目标是对前提和假设进行判断,判断其是否具有蕴含关系。文本蕴含识别形式上是一个文本分类的问题,在上面这个例子中是一个三分类的问题,label分别为entailment,contradiction,neutral。
在这里插入图片描述
基于相似度的方法
构成蕴含关系的两个文本往往比较相似,可以通过计算前提和假设之间的相似度来判断其之间是否构成蕴含关系。
这种基于相似度的方法简单易实现,但这种方法强行假设“相似及蕴含”是有明显缺陷的,这会导致有大量的文本蕴含关系识别错误。
PASCAL-2005的RTE数据集上accuracy为0.55。
基于文本对齐的方法
这类方法不直接使用相似度判别蕴含关系,这类方法先把前提和假设相似的部分进行对齐,通过对齐的方式和程度作为最后判别是否为蕴含关系的依据。这种方式优点就是能够更好体现两个文本之间的相似度。对齐方法缺点在于需要引入先验知识进行对齐,并且存在一些一对多、多对多的对齐情况难以操作。
基于逻辑演算
基于逻辑演算的方法一般是将文本表示成数学逻辑表达式,比如一阶逻辑,构成事实集合,然后用逻辑推理规则判断是否能根据前提推理出假设。
基于逻辑演算的方法把数学界机器证明领域成熟的思想迁移到文本蕴含识别领域,具有一定的理论基础,但文本到逻辑表达式的转换不够鲁棒,容错性较差。而背景知识缺失往往导致推理链条的中断,导致结果召回率偏低。
基于文本转换
这类方法采用了类似的“演算”思想,却抛弃了严格的数学逻辑表达式,转而利用语言分析技术,例如句法分析,语义角色标注,把前提和假设都表示成某种语言表示形式,如句法树、依存图等。然后利用背景知识设计推理规则将前提和假设进行改写,将其转换成对方的类似的形式,然后再通过子图相似性判别出其蕴含关系。
基于转换的方法保留了基于逻辑演算的内核,同时不再要求把前提和假设表示成逻辑表达式,避免了引入噪音,但是该方法严重依赖转换规则。这些转换规则有的来自于知识库有的来自于语料。
基于混合模型
针对前面所介绍的各类文本蕴含识别方法的优势与不足,有学者提出了基于混合模型的方法.该类方法把诸如前提和假设的词级别相似度(如单词重叠率、同义词、反义词等)、句法树相似度、句法树编辑距离、对齐程度、由T转换为H的代价等等混合在一起作为特征,送入分类器(如支持向量机等)进行分类的方法。
基于深度学习的模型
CNN+attention、句法依存树+CNN,在SNLI数据集上的准确率为0.824。
LSTM+attention,在SNLI数据集上的准确率为0.832。
match-LSTM,该方法在SNLI数据集上的准确率为0.861

在这里插入图片描述
中文文本蕴含数据集严重匮乏目前,关于文本蕴含的研究主要还是集中在英文,如评测中常常使用的SNLI数据集与MultiNIL:
The Stanford Natural Language Inference (SNLI) 是斯坦福大学NLP组发布的文本蕴含识别的数据集。SNLI由人工标注的,一共包含570K个文本对,其中训练集550K,验证集10K,测试集10K,一共包含三类entailment,contradiction,neutra。在该数据集上,准确率已经达到将近90%。
The Multi-Genre Natural Language Inference (MultiNLI)是一个众包数据集,包含433k个文本对。

中文中,还没有出现大规模的文本蕴含数据集, CCL2018有一个文本蕴含的评测,由北京语言大学于东老师团队组织的,发布了一个数量级为10W的评测集,这是目前最大的一个文本蕴含数据集,与英文还有很大的差距。

未知名中文项目:
针对中文文本蕴含数据集数量不足的问题,提出了一个中文文本蕴含数据集,规模达到88W。
借助翻译方法进行英文中文转换,前提是英文句子较为短小。
本项目实现了一个以LSTM进行文本蕴含三分类的模型,准确率不是很高,只有0.54左右,后期还有很大的优化空间。
在这里插入图片描述
识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容。文本纠错支持短文本、长文本、语音识别结果等多种文本内容,在搜索引擎、人机对话、语音识别、内容审核等方面有广泛的应用,能显著提高这些场景下的语义准确性和用户体验。

谐音字词纠错,如 配副眼睛-配副眼镜
混淆音字词纠错,如 流浪织女-牛郎织女
字词顺序颠倒纠错,如 伍迪艾伦-艾伦伍迪
字词补全,如 爱有天意-假如爱有天意
形似字纠错,如 高梁-高粱
中文拼音推导,如 xingfu-幸福
中文拼音缩写推导,如 sz-深圳
语法错误,如 想象难以-难以想象
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
文章标签服务对文章的标题和内容进行深度分析,输出能够反映文章关键信息的主题、话题、实体等多维度标签以及对应的置信度,该技术在个性化推荐、文章聚合、内容检索等场景具有广泛的应用价值。
在这里插入图片描述
在这里插入图片描述
自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性。
在这里插入图片描述
在这里插入图片描述
腾讯意图成分依托腾讯强大的机器学习能力和文本挖掘引擎,在腾讯千亿级社交语料的支撑下,不断完善算法模型,以基础NLP能力为支撑,准确理解用户在文本中表达的真实需求和目的。
在这里插入图片描述

意图识别的方法

因为意图识别本身也是一个分类问题,其实方法和分类模型的方法大同小异。常用的有:
1:基于词典模板的规则分类
2:基于过往日志匹配(适用于搜索引擎)
3:基于分类模型进行意图识别
这三种方式基本上是目前比较主流的方法,现在进行意图识别的难点主要是几点:
1.数据来源的匮乏;
2.分类类别扩展困难;
3.输入不规范;
4.多意图;
5. 时效性。

©️2020 CSDN 皮肤主题: 1024 设计师:上身试试 返回首页