![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 90
庞加莱
这个作者很懒,什么都没留下…
展开
-
论文解读 Combating Adversarial Misspellings with Robust Word Recognition
1. 简介论文链接https://www.aclweb.org/anthology/P19-1561.pdf这篇文章发表在ACL19,目的是为了解决错误拼写的对抗(adversarial misspellings)问题。尽管现在的deep learning和Transformer已经非常先进,但是当他们面对错误拼写时仍然十分的脆弱(brittle),一个单词的字母写错就可以愚弄(fool)这些高级的算法。比如一个垃圾邮件的生产者(spammer)仅对邮件的几个字母轻微修改就可以骗过垃圾邮件识别.原创 2021-04-07 02:35:41 · 420 阅读 · 0 评论 -
信息熵与自然语言处理
本文主要观点来自吴军的《数学之美》什么是信息熵信息(Information)是我们天天提到的一个词,信息可以帮助我们减少事物的不确定性。我们要搞清楚一件完全不知道的事物就需要大量的信息,而搞清楚一件熟悉的事情就不需要太多的信息。从这个角度来说,信息量就等于不确定性的大小,举个例子,假设我错过了世界杯比赛,然后我问看过比赛的人谁是冠军,这个人说让我猜,那几次才能猜中呢。我们把32支球队从1-32进行编号,首先我猜冠军在1-16号中,如果他说对,我们继续猜冠军在1-8号中...照这样猜下去,一共原创 2021-02-11 05:23:04 · 1498 阅读 · 0 评论 -
医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking
一、动机论文:https://arxiv.org/abs/2012.08844代码:https://github.com/tigerchen52/Biomedical-Entity-Linking医疗实体链接 (Biomedical Entity Linking) 把文档中发现的疾病、药物、手术名词(mention)映射到知识库(knowledge base)中的标准术语词。这项任务其实是非常有挑战的,这是因为文档中出现的医疗词语存在着多种变化,比如缩写、同义词、词形态变化、词序、错原创 2021-01-14 05:34:35 · 2408 阅读 · 5 评论 -
实体链接中使用实体一致性信息(coherence)
实体链接(Entity Linking; Entity Disambiguation)是自然语言处理中一个很重要的任务,目的是将文本中发现的mention链接到知识库(Knowledge Base)中的标注实体(Entity)。实体链接一般需要考虑三种信息,先验信息(prior),mention和entity之间的相似度,实体之间的一致性(coherence) 先验信息。一个是实体本身出现的频率,一个是mention确定下链接到某实体的条件概率,即 p(e|m) 相似度。mention和原创 2020-05-27 18:20:30 · 2627 阅读 · 3 评论 -
使用CNN进行情感分析(Sentiment Analysis)
一、情感分析情感分析是自然语言处理中很常见的任务,它的目的是识别出一段文本潜在的情感,是表扬还是批评,是支持还是反对。比如我们可以使用情感分析去分析社媒的评论,从而得到网友对某件事的看法,进一步分析可以得到舆论的趋势。大家都知道特朗普非常喜欢发Twitter,我们可以对推友们评论进行分析,看看他们是在骂特朗普还是在支持特朗普,然后把所有的评论汇总起来就能得到一个大概的特朗普是否能够连任的趋势了...原创 2020-01-23 22:39:38 · 9650 阅读 · 0 评论 -
关于短文本匹配的深度学习模型
背景短文本匹配(text matching)或句子相似度(sentence similarity)在信息检索中有着广泛的应用,比如相似问题判断,问答系统等等。短文本匹配的任务难点有两个,一个是“短”,缺乏上下文和可以利用的信息。比如说“某某被绿了”这个句子,人是知道“绿”的含义的,但是这对于机器来说是很难理解的,这里需要借助一些外部的知识来帮助机器理解。第二个难点是语言表达形式的多样性,这里有...原创 2020-01-09 01:30:13 · 3910 阅读 · 0 评论 -
论文笔记 Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
一、动机为了抽取文档级别的关系,许多方法使用远程监督(distant supervision )自动地生成文档级别的语料,从而用来训练关系抽取模型。最近也有很多多实例学习(multi-instance learning)的方法被提出来解决这个问题。跨句子的关系抽取不仅需要句子内部的依赖关系还需要句子之间的依赖关系。依存语法树(Dependency trees)可以很好处理句子内的关系抽取,...原创 2019-08-02 12:15:43 · 4100 阅读 · 0 评论 -
论文笔记 DNorm: disease name normalization with pairwise learning to rank
一、动机疾病词的标准化是一个非常复杂的任务,疾病词通常是由希腊和拉丁的词根和词缀构造的,比如hemochromatosis(血色素沉着病)。另一种灵活的疾病词创建方式是疾病分类(disease category)加上短修饰词(modifier),其中包括解剖部位(anatomical locations)。比如breast cancer,乳癌 症状(symptoms)。比如cat-e...原创 2019-08-13 17:46:38 · 820 阅读 · 0 评论 -
医疗领域实体对齐(实体链接)论文总结
2002Pakhomov, Serguei. "Semi-supervised maximum entropy based approach to acronym and abbreviation normalization in medical texts."Proceedings of the 40th annual meeting on association for computat...原创 2019-08-12 12:18:30 · 3362 阅读 · 0 评论 -
论文笔记 Medical Entity Linking using Triplet Network
一、动机实体链接(Entity Linking)或者标准化(Normalization)的目标是将文本中发现的mention链接到知识库中的标准实体。在医疗领域,疾病词的实体链接难度在于缩写、同义词、单词顺序变换等等,这些不同形态的描述给疾病实体链接带来了困难。为了解决这个问题,作者提出了一个基于Triplet Networks的实体链接框架,这篇文章的贡献主要有三点:为了区分正样本和负样...原创 2019-08-12 23:12:38 · 1375 阅读 · 0 评论 -
基于社交媒体的政治情感分析的相关论文
2010Tumasjan, Andranik, et al. "Predicting elections with twitter: What 140 characters reveal about political sentiment."Fourth international AAAI conference on weblogs and social media. 2010.被引...原创 2019-08-31 15:34:55 · 1106 阅读 · 0 评论 -
关系抽取论文总结(relation extraction)不断更新
20001.Miller, Scott, et al. "A novel use of statistical parsing to extract information from text."1st Meeting of the North American Chapter of the Association for Computational Linguistics. 2000.被...原创 2019-08-04 21:50:20 · 7996 阅读 · 1 评论 -
疾病自动诊断论文 (Automated Diagnosis)
1991Shwe, Michael A., et al. "Probabilistic diagnosis using a reformulation of the INTERNIST-1/QMR knowledge base."Methods of information in Medicine30.04 (1991): 241-255.2007Pestian, John P.,...原创 2019-07-01 22:39:01 · 443 阅读 · 0 评论 -
医疗术语自动编码论文总结 (Automated Coding)
1996Larkey, Leah S., and W. Bruce Croft. "Combining classifiers in text categorization."SIGIR. Vol. 96. 1996.论文链接被引用次数:532思想:看成检索问题,输入是discharge summary长文本,输出是每个code的分数。打分的方法有三个,K-nearest-n...原创 2019-06-16 17:52:16 · 1715 阅读 · 1 评论 -
CNN在文本分类的应用(内有代码实现) 论文Convolutional Neural Networks for Sentence Classification
一、CNN文本分类简介文本分类是NLP领域的一个重要子任务,文本分类的目标是自动的将文本打上已经定义好的标签,常见的文本分类任务有:用户评论的情感识别 垃圾邮件过滤 用户查询意图识别 新闻分类由此看出文本分类的用途十分之广,包括知识图谱领域的关系抽取任务也是使用文本分类实现的。有很多经典的统计学习方法可以用来做文本分类,比如SVM,LR,MaxEnt等等。这些方法的一般流程是标...原创 2018-07-31 23:54:44 · 13456 阅读 · 11 评论 -
DeepDive-信息抽取工具安装教程
一、DeepDive简介DeepDive是信息抽取的工具,它可以从各种dark data(文本、图片、表格)中将非结构数据抽取到关系数据库中。DeepDive的主要功能是抽取dark data中的实体以及实体之间的关系。DeepDive文档:http://deepdive.stanford.edu/DeepDive GitHub:https://github.com/HazyR...原创 2018-08-14 10:53:08 · 3534 阅读 · 4 评论 -
知识图谱构建技术综述
一、知识图谱的定义知识图谱是结构化的语义知识库,用以符号的形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状知识结构。二、知识图谱的架构2.1 逻辑架构数据层与模式层。数据层:知识以事实存储在图数据库模式层:模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通...原创 2018-08-14 11:03:47 · 2965 阅读 · 0 评论 -
【转载】自然语言推理介绍
原文链接自然语言推理介绍自然语言推理作为自然语言理解的一个重要组成部分,在整个自然语言理解中扮演着重要的角色,接下里我将对自然语言推理的现状做一简单总结,以下内容是我的小组分享的记录版。自然语言推理简介自然语言推理主要是判断两个句子(Premise, Hypothesis)或者两个词之间的语义关系,为了保证模型能够集中在语义理解上,该任务最终退化为一个分类任务,目前类别主要是三...转载 2018-08-02 17:47:47 · 8357 阅读 · 1 评论 -
【论文笔记】APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK
一、简介这篇论文的任务是问答,输入一个question,从候选集中找到对应的answer。其实也可以看成paraphrase identification任务,或者是短文本匹配。文中使用的数据集是insuranceQA,数据规模如下。这篇论文的特色是“齐全”,作者设计了6种CNN结构 + 8种相似度实验,最终在数据集上得到0.653的准确率。作者给出了详细的实验结果,这些结论可以让...原创 2019-01-18 17:06:59 · 1027 阅读 · 0 评论 -
【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION
一、简介这篇论文由IBM Watson发表在2016 ICLR,目前引用量92。这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learning to Answer Selection: A Study and An Open Task] [ 论文笔记链接 ],对模型的网络结构进行了改进,使用双向LSTM对question和answer进...原创 2019-02-05 20:59:44 · 2044 阅读 · 0 评论 -
文本匹配(Text Matching&Answer Selection)论文总结(不断更新)
2013Huang, Po Sen , et al. "Learning deep structured semantic models for web search using clickthrough data."Proceedings of the 22nd ACM international conference on Conference on information &...原创 2019-01-29 10:20:07 · 2426 阅读 · 1 评论 -
同义词(近义词)算法总结(附代码)
一、简介同义词挖掘一般有三种思路,借助已有知识库,上下文相关性,文本相似度。1.1 知识库可以借助已有知识库得到需要同义词,比如说《哈工大信息检索研究室同义词词林扩展版》和 HowNet,其中《词林》文件数据如下。Aa01A01= 人 士 人物 人士 人氏 人选Aa01A02= 人类 生人 全人类Aa01A03= 人手 人员 人口 人丁 口 食指Aa01A04= 劳力 劳动...原创 2019-02-14 23:47:57 · 20041 阅读 · 4 评论 -
自然语言推理-文本蕴含识别简介
一 什么是文本蕴含识别文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(premise),另一个文本作为假设(hypothesis),如果根据前提P能够推理得出假设H,那么就说P蕴含H,记做。这跟一阶逻辑中的蕴含关系是类似的。例子:...原创 2018-08-04 23:31:23 · 23500 阅读 · 1 评论