- 博客(47)
- 收藏
- 关注
原创 GLADIS:一个缩写词消歧(扩写)的数据集和模型
💻| 🕹️缩写词广泛存在于各种场景,比如网络媒体,医疗文本,科技文献等等。比如下面这个例子,“AI”这个缩写可以指人工质智能(Artificial Intelligence),也可以指合理摄入(Adequate Intake)。但是缩写的存在会影响我们对文本的理解,尤其对于机器,它们不能很好理解这些缩写的含义后就不能执行分配的任务。因此我们需要对缩写进行消歧或者改写成原有的形式。
2024-02-22 07:23:34 463
原创 PEARL: 一个轻量的计算短文本相似度的表示模型
PEARL在训练中会让模型的类别,比如“The New York Times”是一个与organization相关的名词短语,noun phrase organization (NP-ORG)。通过这个任务,不同类别的短文本会被区分开,我们也会学到更好的表示。传统的方法使用文本编辑距离计算文本相似度,这种方法简单速度快,缺点就是不能捕捉语义的相似度,比如例子2和例子3的情况。FastText是可以基于词向量计算语义相似度,但是它的效果不如现在流行的上下文相关的语言模型,比如BERT。
2024-02-22 06:23:11 1198
原创 论文解读 Combating Adversarial Misspellings with Robust Word Recognition
1. 简介论文链接https://www.aclweb.org/anthology/P19-1561.pdf这篇文章发表在ACL19,目的是为了解决错误拼写的对抗(adversarial misspellings)问题。尽管现在的deep learning和Transformer已经非常先进,但是当他们面对错误拼写时仍然十分的脆弱(brittle),一个单词的字母写错就可以愚弄(fool)这些高级的算法。比如一个垃圾邮件的生产者(spammer)仅对邮件的几个字母轻微修改就可以骗过垃圾邮件识别.
2021-04-07 02:35:41 448
原创 信息熵与自然语言处理
本文主要观点来自吴军的《数学之美》什么是信息熵信息(Information)是我们天天提到的一个词,信息可以帮助我们减少事物的不确定性。我们要搞清楚一件完全不知道的事物就需要大量的信息,而搞清楚一件熟悉的事情就不需要太多的信息。从这个角度来说,信息量就等于不确定性的大小,举个例子,假设我错过了世界杯比赛,然后我问看过比赛的人谁是冠军,这个人说让我猜,那几次才能猜中呢。我们把32支球队从1-32进行编号,首先我猜冠军在1-16号中,如果他说对,我们继续猜冠军在1-8号中...照这样猜下去,一共
2021-02-11 05:23:04 1582
原创 梯度下降(Gradient Descent)原理以及Python代码
给定一个函数,我们想知道当是值是多少的时候使这个函数达到最小值。为了实现这个目标,我们可以使用梯度下降(Gradient Descent)进行近似求解。梯度下降是一个迭代算法,具体地,下一次迭代令是梯度,其中是学习率(learning rate),代表这一轮迭代使用多少负梯度进行更新。梯度下降非常简单有效,但是其中的原理是怎么样呢?原理为什么每次使用负梯度进行更新呢?这要从泰勒公式(Taylor's formula)说起:泰勒公式的目的是使用的多项式去逼近函数,这里可以理解泰勒公
2021-02-10 04:42:50 8071 1
原创 医疗实体链接(标准化)论文解读 (附代码) A Lightweight Neural Model for Biomedical Entity Linking
一、动机论文:https://arxiv.org/abs/2012.08844代码:https://github.com/tigerchen52/Biomedical-Entity-Linking医疗实体链接 (Biomedical Entity Linking) 把文档中发现的疾病、药物、手术名词(mention)映射到知识库(knowledge base)中的标准术语词。这项任务其实是非常有挑战的,这是因为文档中出现的医疗词语存在着多种变化,比如缩写、同义词、词形态变化、词序、错
2021-01-14 05:34:35 2546 5
原创 实体链接中使用实体一致性信息(coherence)
实体链接(Entity Linking; Entity Disambiguation)是自然语言处理中一个很重要的任务,目的是将文本中发现的mention链接到知识库(Knowledge Base)中的标注实体(Entity)。实体链接一般需要考虑三种信息,先验信息(prior),mention和entity之间的相似度,实体之间的一致性(coherence) 先验信息。一个是实体本身出现的频率,一个是mention确定下链接到某实体的条件概率,即 p(e|m) 相似度。mention和
2020-05-27 18:20:30 2739 3
原创 通过loss曲线诊断神经网络模型
本文首先会介绍loss曲线表现形式,过拟合,欠拟合等等。然后展示如何使用matplotlib绘制loss曲线。一、Loss曲线通常数据集会被划分成三部分,训练集(training dataset)、验证集(validation dataset)、测试集(test dataset)。我们在训练模型时也经常会根据训练集的loss和验证集loss来诊断模型,从而期望能够优化参数训练处一个更好的模...
2020-02-14 17:43:55 102169 23
原创 在神经网络中使用dropout
一、什么是dropoutdropout是解决神经网络模型过拟合的好办法,那什么是dropout呢?简而言之,它就是随机的将输入的张量中元素置为0,dropout可以理解为一种集成模型。因为我们将元素置为0后,相当于主动抛弃了一部分特征,强迫模型基于不完整的特征进行学习,而每次特征又不一样,所以避免模型过度学习某些特征,得到避免过拟合的效果。我们看如下代码感受下什么是dropout,首先我们有一...
2020-02-14 17:40:05 13230
原创 使用early stopping解决神经网络过拟合问题
神经网络训练多少轮是一个很关键的问题,训练轮数少了欠拟合(underfit),训练轮数多了过拟合(overfit),那如何选择训练轮数呢?Early stopping可以帮助我们解决这个问题,它的作用就是当模型在验证集上的性能不再增加的时候就停止训练,从而达到充分训练的作用,又避免过拟合。一、在Keras中使用early stoppingKeras中有EarlyStopping类,可以...
2020-02-14 01:02:59 11126
原创 使用CNN进行情感分析(Sentiment Analysis)
一、情感分析情感分析是自然语言处理中很常见的任务,它的目的是识别出一段文本潜在的情感,是表扬还是批评,是支持还是反对。比如我们可以使用情感分析去分析社媒的评论,从而得到网友对某件事的看法,进一步分析可以得到舆论的趋势。大家都知道特朗普非常喜欢发Twitter,我们可以对推友们评论进行分析,看看他们是在骂特朗普还是在支持特朗普,然后把所有的评论汇总起来就能得到一个大概的特朗普是否能够连任的趋势了...
2020-01-23 22:39:38 9907
原创 关于短文本匹配的深度学习模型
背景短文本匹配(text matching)或句子相似度(sentence similarity)在信息检索中有着广泛的应用,比如相似问题判断,问答系统等等。短文本匹配的任务难点有两个,一个是“短”,缺乏上下文和可以利用的信息。比如说“某某被绿了”这个句子,人是知道“绿”的含义的,但是这对于机器来说是很难理解的,这里需要借助一些外部的知识来帮助机器理解。第二个难点是语言表达形式的多样性,这里有...
2020-01-09 01:30:13 4023
原创 社交媒体分析-恶意内容自动检测相关论文
2010Robertson, Michael, Yin Pan, and Bo Yuan. "A social approach to security: Using social networks to help detect malicious web content."2010 IEEE International Conference on Intelligent Systems a...
2019-09-04 12:10:48 839
原创 统计学习方法-最大熵模型
最大熵模型(maximum entropy model)是由最大熵原理推导而来的。一、最大熵原理最大熵原理认为,学习概率模型的时候,在所有可能的概率模型分布中,熵最大的模型是最好的模型。模型通常要满足数据集的约束条件。所以最大熵模型的原理可以被描述为在满足约束条件下熵最大的模型。直观地讲,最大熵原理,认为要选择的概率模型首先要满足已有的事实,即约束条件。然后再不确定信息的情况下,那...
2019-09-02 16:39:43 578
原创 基于社交媒体的政治情感分析的相关论文
2010Tumasjan, Andranik, et al. "Predicting elections with twitter: What 140 characters reveal about political sentiment."Fourth international AAAI conference on weblogs and social media. 2010.被引...
2019-08-31 15:34:55 1150
原创 论文笔记 DNorm: disease name normalization with pairwise learning to rank
一、动机疾病词的标准化是一个非常复杂的任务,疾病词通常是由希腊和拉丁的词根和词缀构造的,比如hemochromatosis(血色素沉着病)。另一种灵活的疾病词创建方式是疾病分类(disease category)加上短修饰词(modifier),其中包括解剖部位(anatomical locations)。比如breast cancer,乳癌 症状(symptoms)。比如cat-e...
2019-08-13 17:46:38 891
原创 论文笔记 Medical Entity Linking using Triplet Network
一、动机实体链接(Entity Linking)或者标准化(Normalization)的目标是将文本中发现的mention链接到知识库中的标准实体。在医疗领域,疾病词的实体链接难度在于缩写、同义词、单词顺序变换等等,这些不同形态的描述给疾病实体链接带来了困难。为了解决这个问题,作者提出了一个基于Triplet Networks的实体链接框架,这篇文章的贡献主要有三点:为了区分正样本和负样...
2019-08-12 23:12:38 1462
原创 医疗领域实体对齐(实体链接)论文总结
2002Pakhomov, Serguei. "Semi-supervised maximum entropy based approach to acronym and abbreviation normalization in medical texts."Proceedings of the 40th annual meeting on association for computat...
2019-08-12 12:18:30 3410
原创 使用Keras计算余弦相似度(Cosine Similarity)
因为Merge函数在Keras新版本中已经不再使用了,在计算批次余弦相似度时,需要自定义函数。余弦相似度定义如下:要计算两个向量相似度有如下步骤:分别计算两个向量l2范式,计算两个向量的点乘 点乘的结果除以l2范式的乘积,注意分母不要为0我们使用Keras后端函数计算Cosine相似度,因为在使用后端函数时候要使用Lamda函数进行包裹,否则程序会影响出错。K.batch_dot(...
2019-08-05 18:30:53 9066 2
原创 关系抽取论文总结(relation extraction)不断更新
20001.Miller, Scott, et al. "A novel use of statistical parsing to extract information from text."1st Meeting of the North American Chapter of the Association for Computational Linguistics. 2000.被...
2019-08-04 21:50:20 8046 1
原创 论文笔记 Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
一、动机为了抽取文档级别的关系,许多方法使用远程监督(distant supervision )自动地生成文档级别的语料,从而用来训练关系抽取模型。最近也有很多多实例学习(multi-instance learning)的方法被提出来解决这个问题。跨句子的关系抽取不仅需要句子内部的依赖关系还需要句子之间的依赖关系。依存语法树(Dependency trees)可以很好处理句子内的关系抽取,...
2019-08-02 12:15:43 4175
原创 疾病自动诊断论文 (Automated Diagnosis)
1991Shwe, Michael A., et al. "Probabilistic diagnosis using a reformulation of the INTERNIST-1/QMR knowledge base."Methods of information in Medicine30.04 (1991): 241-255.2007Pestian, John P.,...
2019-07-01 22:39:01 467
原创 医疗术语自动编码论文总结 (Automated Coding)
1996Larkey, Leah S., and W. Bruce Croft. "Combining classifiers in text categorization."SIGIR. Vol. 96. 1996.论文链接被引用次数:532思想:看成检索问题,输入是discharge summary长文本,输出是每个code的分数。打分的方法有三个,K-nearest-n...
2019-06-16 17:52:16 1766 1
原创 使用K.function()调试keras
Keras的底层库使用Theano或TensorFlow,这两个库也称为Keras的后端。无论是Theano还是TensorFlow,都需要提前定义好网络的结构,也就是常说的“计算图”。在运行前需要对计算图编译,然后才能输出结果。那这里面主要有两个问题,第一是这个图结构在运行中不能任意更改,比如说计算图中有一个隐含层,神经元的数量是100,你想动态的修改这个隐含层神经元的数量那是不可以的;第二是调...
2019-06-15 21:04:56 10743
原创 import keras 报错 ImportError: cannot import name ‘urlopen‘
详细报错信息Traceback (most recent call last): File "D:/github/automated_icd_coding/source/train.py", line 8, in <module> import keras File "D:\chenlihu\software\python3.5.2\lib\site-packa...
2019-06-14 10:27:11 2664
转载 【转】从零开始 LaTeX 快速入门
【原文链接】http://liuchengxu.org/blog-cn/posts/quick-latex/此篇为写给一些想快速入门 LaTeX 的朋友. 为什么叫从零开始? 因为我就是从零开始学会的 LaTeX。本人学识与能力有限,以下内容如有纰漏或错误,欢迎来信纠正。我几乎没有看到有将 LaTeX 与网页的渲染进行比较学习,这也可以算作是迁移学习,只要稍微懂得一点网页的知识都可以了解 ...
2019-06-13 14:50:22 579
原创 matplotlib error - no module named tkinter
解决方法一:ubuntusudo apt-get install python3-tkcentossudo yum install tkinter解决方法二:使用agg作为matplotlib后端,不使用tkinterimport matplotlibmatplotlib.use('agg')import matplotlib.pyplot as plt参...
2019-06-10 14:14:32 273
原创 Keras问题“AttributeError: 'NoneType' object has no attribute 'update”解决
BUG在使用Keras训练模型时,在每个epoch完成后save_model时会报错 “AttributeError: 'NoneType' object has no attribute 'update'”具体异常打印信息如下,主要原因是模型中有自定义的class,Keras不知道怎么进行deep_copy()File "train.py", line 88, in <mod...
2019-06-06 13:11:38 11116
原创 Keras K.switch()用法
一、switchkeras.backend.switch(condition, then_expression, else_expression)根据一个标量值在两个操作之间切换。请注意,then_expression和else_expression都应该是相同尺寸的符号张量。参数condition: 张量 (int或bool)。 then_express...
2019-06-05 11:39:53 5528 5
原创 Keras Bug 解决方法 Exception ignored in: bound method BaseSession.__del__ of
报错信息Exception ignored in: <bound method BaseSession.__del__ of <tensorflow.python.client.session.Session object at 0x000000001AB286D8>>Traceback (most recent call last): File "python...
2019-06-03 14:36:41 10768 1
原创 python去除英文字符中的数字和标点符号
import redef remove(text): remove_chars = '[0-9’!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?“”‘’![\\]^_`{|}~]+' return re.sub(remove_chars, '', text)
2019-05-20 17:05:20 12709 1
原创 小样本学习论文总结(few-shot learning)
2011Lake, Brenden, et al. "One shot learning of simple visual concepts."Proceedings of the annual meeting of the cognitive science society. Vol. 33. No. 33. 2011.[paper]2013Socher, Richard, et ...
2019-03-24 10:58:47 5807 2
原创 同义词(近义词)算法总结(附代码)
一、简介同义词挖掘一般有三种思路,借助已有知识库,上下文相关性,文本相似度。1.1 知识库可以借助已有知识库得到需要同义词,比如说《哈工大信息检索研究室同义词词林扩展版》和 HowNet,其中《词林》文件数据如下。Aa01A01= 人 士 人物 人士 人氏 人选Aa01A02= 人类 生人 全人类Aa01A03= 人手 人员 人口 人丁 口 食指Aa01A04= 劳力 劳动...
2019-02-14 23:47:57 21211 4
原创 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION
一、简介这篇论文由IBM Watson发表在2016 ICLR,目前引用量92。这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learning to Answer Selection: A Study and An Open Task] [ 论文笔记链接 ],对模型的网络结构进行了改进,使用双向LSTM对question和answer进...
2019-02-05 20:59:44 2072
原创 文本匹配(Text Matching&Answer Selection)论文总结(不断更新)
2013Huang, Po Sen , et al. "Learning deep structured semantic models for web search using clickthrough data."Proceedings of the 22nd ACM international conference on Conference on information &...
2019-01-29 10:20:07 2468 1
原创 【论文笔记】APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK
一、简介这篇论文的任务是问答,输入一个question,从候选集中找到对应的answer。其实也可以看成paraphrase identification任务,或者是短文本匹配。文中使用的数据集是insuranceQA,数据规模如下。这篇论文的特色是“齐全”,作者设计了6种CNN结构 + 8种相似度实验,最终在数据集上得到0.653的准确率。作者给出了详细的实验结果,这些结论可以让...
2019-01-18 17:06:59 1053
原创 BahdanauAttention与LuongAttention注意力机制简介
在使用tensorflow时发现其提供了两种Attention Mechanisms(注意力机制),如下The two basic attention mechanisms are:tf.contrib.seq2seq.BahdanauAttention (additive attention, ref.) tf.contrib.seq2seq.LuongAttention (multi...
2018-09-26 19:31:33 33561 6
原创 tf.nn.dynamic_rnn的输出outputs和state含义
一、 tf.nn.dynamic_rnn的输出tf.nn.dynamic_rnn的输入参数如下tf.nn.dynamic_rnn( cell, inputs, sequence_length=None, initial_state=None, dtype=None, parallel_iterations=None, swap_me...
2018-08-15 19:09:29 24080 10
原创 知识图谱构建技术综述
一、知识图谱的定义知识图谱是结构化的语义知识库,用以符号的形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状知识结构。二、知识图谱的架构2.1 逻辑架构数据层与模式层。数据层:知识以事实存储在图数据库模式层:模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通...
2018-08-14 11:03:47 3024
原创 DeepDive-信息抽取工具安装教程
一、DeepDive简介DeepDive是信息抽取的工具,它可以从各种dark data(文本、图片、表格)中将非结构数据抽取到关系数据库中。DeepDive的主要功能是抽取dark data中的实体以及实体之间的关系。DeepDive文档:http://deepdive.stanford.edu/DeepDive GitHub:https://github.com/HazyR...
2018-08-14 10:53:08 3648 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人