NLU
文章平均质量分 92
自然语言理解
阿_牛
这个作者很懒,什么都没留下…
展开
-
李宏毅-人类语言处理-成分句法分析
前言:NLP 任务中,句法分析有两种,一种是成分句法分析,另一种是依存句法分析。句法分析不适用于之前的 NLP 任务分类体系。它的输出形式相对来说会比较不一样。成分句法分析简单来说就是找到一个句子的组成成分。我们要怎样知道一个单位是不是成分呢。这需要语言学上的方法来鉴定。一般是我们凭着直觉判断的主谓宾。每一个成分都会有一个标签,比如 deep learning 的标签是 NP,very powerful 的标签是 ADJP。成分句法分析的标签类型还是比较多的。它的组成更倾向于是短语级转载 2021-08-06 21:00:36 · 950 阅读 · 0 评论 -
文本匹配专题-2模型DSSM:Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
目录论文简介发表信息标题:利用点击数据学习网页搜索中深层结构化语义模型作者:Po-Sen Huang、Xiaodong He 等单位:伊利诺伊大学厄巴纳-香槟分校、微软研究院会议:CIKM时间:2013研究对象作者解决的是搜索领域的文本检索和候选文章的排序问题,即给定文本A,对文本BCD等进行相关性排序,将得分高的排序在前面。实质上还是文本匹配问题。DSSM之前,解决方法多为传统机器学习(LSA,LDA等),DSSM作为文本匹配的神经网络方法开山之作,从这之后才出现大量深度学习方法以及工业原创 2021-05-23 18:45:30 · 311 阅读 · 0 评论 -
文本匹配专题-1:任务和数据集介绍
文本匹配任务介绍如上图的两串文本S1与S2,文本匹配研究的是他们之间的关系,根据关系定义不同可分为以下具体任务:信息检索研究的关系为相关程度。模型输入一般为query和doc,模型输出为doc和query的相关程度得分(0-1.0),目的是找出与query最相关的知识。常见场景有query-title匹配、query-document匹配。例如S1:中国首都S2:中国首都北京S3:北京F(S1,S3)=0.99,表示模型认为S1,S3是高度相关的,可以理解为是用户想要的检索答案。F(S原创 2021-04-21 20:54:24 · 1065 阅读 · 1 评论 -
意图识别算法:噪音处理之O2U-Net: A Simple Noisy Label Detection Approach for Deep Neural Networks
论文下载:O2U-Net: A Simple Noisy Label Detection Approach for Deep Neural Networks问题描述意图识别的数据往往来自人工标注,标注时不同人对意图标签定义的理解多少有些出入,如“忙”意图,有时看快了会将“有点忙,你说”也标注为忙,这也是情理之中,人非圣贤孰能无过,何况每天面对成千上万的数据呢?这类问题在阿里图片分类中也遇到了,例如下图是外包对性感图任务打标结果的截图,对类似的图片标注结果完全相反,用这批带噪数据进行训练得到的模型精度无原创 2020-09-27 17:39:30 · 2026 阅读 · 0 评论 -
文本匹配专题-2模型DSSM:Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
本文原数据来自深度之眼paper课程简介标题:利用点击数据学习网页搜索中深层结构化语 义模型作者:Po-Sen Huang、Xiaodong He 等单位:伊利诺伊大学厄巴纳-香槟分校、微软研究院发表会议及时间:CIKM 2013研究对象作者解决的是搜索领域的,文本检索和候选文章的排序问题,即给定文本A,对文本BCD等进行相关性排序,将得分高的排序在前面。实质上还是文本匹配问题。DSSM之前,解决方法多为传统机器学习(LSA,LDA等),DSSM之后,解决方法多为深度学习。.原创 2020-09-28 10:31:17 · 321 阅读 · 0 评论 -
文本匹配之Bert-flow:On the Sentence Embeddings from Pre-trained Language Models
目录论文信息内容解析语义相似度和bert预训练语言模型LM(Language modeling):掩码语言模型MLM(masked language modeling)统计共现来表示语义相似各向异性向量与语义相似性BERT-flow动机Motivation基于标准化流的生成模型Flow-based Generative Model实验语义相似Semantic Textual Similarity无监督实验Unsupervised Training有监督实验Supervised Training无监督QA实验原创 2020-12-31 17:53:54 · 3167 阅读 · 5 评论 -
文本匹配之Com-Agg:A Compare-Aggregate Model For Matching Text Sequences
简介论文标题:一个用于匹配文本序列的比较聚合模型作者:Shuohang Wang Jing Jiang单位:新加坡管理大学信息系统学院发表会议及时间:ICLR 2017研究对象解决NLP中序列匹配问题,包括机器理解、答案选择、文本蕴含、文本相似等。问题定义:使用两个矩阵Q∈Rd×Q和A∈Rd×A来表示两个序列的词嵌入(word embedding),其中 Q 和 A 分别是两个序列所含单词的个数,d 是词嵌入的维数,即Q和A的每个列向量都是表示单个单词的嵌入向量。给定一对Q和A,目标是预原创 2020-11-17 09:47:49 · 677 阅读 · 0 评论