论文阅读
文章平均质量分 64
黄鑫huangxin
深度学习,多媒体分析与理解
知乎专栏:https://www.zhihu.com/people/mu-xi-jin-39/columns
Github: https://github.com/BonnieHuangxin
展开
-
《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》来源:CVPR 2018参考CSDN博客:论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering...原创 2018-08-16 10:08:15 · 3442 阅读 · 0 评论 -
ELMo模型的理解与实践(1)
论文:2018 NAACL 《Deep Contextualized Word Representations》一、优点1.学习单词的复杂特征,包括语法、语义2.学习在不同上下文下的一词多义二、模型1.Bidirectional language models(BLM)首先给定N个单词的序列, 1)前向语言模型,已知前k-1个单词 ,预测第k个单词 的概率:2...原创 2018-12-18 13:56:43 · 3803 阅读 · 0 评论 -
ELMo模型的理解与实践(2)
预训练好的词向量已经released,这里介绍一下,如何直接获取ELMo词向量。在pytorch里可以通过AlenNLP包使用ELMo。一、环境配置1) 在conda中创建allennlp环境:conda create -n allennlp python=3.62) 安装allennlppip install allennlp二、下载训练好的参数和模型参数下载:...原创 2018-12-18 13:59:56 · 2000 阅读 · 3 评论 -
Google BERT理解
论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》一、模型介绍BERT采用了双向Transformer Encoder来作为语言模型(《Attention is all you need》论文中的transformer结构),采用了两种预训练方法:1)Masked L...原创 2018-12-18 14:02:54 · 1146 阅读 · 0 评论 -
《Rethinking ImageNet Pre-training》理解
论文:何恺明《Rethinking ImageNet Pre-training》在许多计算机视觉任务中,包括目标检测、图像分割、行为检测等,一般使用在ImageNet上预训练再进行微调。而在这篇论文中,作者任务在ImageNet上预训练是并不必要的,随机初始化也可以达到同样的效果,只需要:1)使用合适的正则化优化方法2)足够长的训练时间,即多次迭代训练论文中的走势图,我们可以观察到...原创 2018-12-18 14:20:39 · 341 阅读 · 0 评论 -
CoNLL 2018:基于人类注意力的序列分类
论文《Sequence classification with human attention》代码:https://github.com/coastalcph/Sequence_classification_with_human_attention这篇论文提出利用视觉跟踪语料库中的人类注意力,作为训练注意力模型时的一个归纳偏置(Inductive bias),也就是用human atte...原创 2019-03-06 19:51:32 · 1197 阅读 · 0 评论 -
计算机类学术论文写作中提高效率的小工具
作为一个学术论文写作新手,分享在论文写作过程中发现的提高效率的小工具。1. 在线写作工具——Overleaf在线latex写作,自动保存。在写的过程中可以随时编译,并且下载为pdf格式。网址:https://www.overleaf.com2. 检查语法错误以及单词拼写——Grammarly粘贴论文中的句子,检测句子是否有语法错误或者单词拼写错误。总的来说,可以标注出简单的小错...原创 2019-03-10 23:12:38 · 1021 阅读 · 1 评论 -
AAAI 2018: 基于强化学习的文本分类
看这篇论文前,建议先了解一下policy gradient RL,就更很容易理解论文思想了。论文:《Learning Structured Representation for Text Classification via Reinforcement Learning》代码:http://coai.cs.tsinghua.edu.cn/publications/一、论文原理这...原创 2019-04-26 11:10:55 · 1981 阅读 · 5 评论 -
【NLP】OpenAI GPT算法理解
论文《Improving Language Understanding by Generative Pre-Training》Pytorch代码实现:huggingface/pytorch-openai-transformer-lm一、论文原理GPT的核心思想是先通过无标签的文本去训练生成语言模型,再根据具体的NLP任务(如文本蕴涵、QA、文本分类等),来通过有标签的数据对模型进行...原创 2019-04-23 19:18:08 · 6136 阅读 · 1 评论 -
中文分词综述
一、中文分词根据实现原理和特点,主要分为以下2个类别:1、基于词典分词算法(字符串匹配分词算法) 按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别该词。 常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。 2、基于统计的分词方法 基于统计的分词方法是在给定大量已经分...原创 2019-06-04 19:22:59 · 2161 阅读 · 0 评论 -
自然语言预训练模型总结(PPT版)
这是我个人的总结,参考了张俊林这篇很好的文章,请感兴趣看以下链接~张俊林:放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较一、简介自然语言处理中的预训练技术发展历程——从Word Embedding到Bert Neural language models Word Embedding Pretrained l...原创 2019-06-04 19:33:00 · 1975 阅读 · 0 评论 -
TextRank算法提取文本关键词
TextRank算法是由 Google 搜索的核心网页排序算法 PageRank 改编而来,利用图模型来提取文章中的关键词,首先介绍一下 PageRank 排序算法一、PageRank 算法PageRank通过网页之间的超链接来确定页面的重要性,它将整个互联网可以看作是一张有向图,网页是图中的节点,网页之间的链接就是图中的边。根据重要性传递的思想,如果一个大型网站A含有一个超...原创 2019-06-04 19:38:02 · 7792 阅读 · 0 评论 -
ICMR 19:Temporal Activity Localization by Language
介绍一下我之前在校,独立完成的一项工作,已被ACM ICMR 2019 接收为oral paper论文:《Cross-Modal Video Moment Retrieval with Spatial and Language-Temporal Attention》代码:https://github.com/BonnieHuangxin/SLTA一、论文任务Examples:...原创 2019-06-04 19:56:46 · 1634 阅读 · 3 评论 -
《Dual Attention Networks for Multimodal Reasoning and Matching》
Dual Attention Networks for Multimodal Reasoning and MatchingCVPR 2017图文匹配终极问题是整个Text与整个Image的匹配问题,但是这个问题比较难以解决,所以一个最基本的想法就是把这个问题拆分开来,Text由不同的单词构成,Image由不同的区域构成,如果能把Text的单词与Image的区域进行一个匹配,那么这个问题就会...原创 2018-08-16 10:08:25 · 1703 阅读 · 0 评论 -
《图文匹配&VQA》小结
图文匹配以及图像的QA是图像与文本多模态融合,是计算机视觉与自然语言处理的交叉。图文匹配:将图像与文本都映射到一个相同的语义空间,然后通过距离对他们的相似度进行判断。图文匹配问题与VQA最大的不同就是,需要比对两种特征之间的距离。将文本和图像分别做attention,DAN计算每一步attention后的文本和图像向量相似度累加得到similarity.VQA:给定一张图像和一...原创 2018-08-16 10:08:37 · 4356 阅读 · 1 评论 -
《Linking Image and Text with 2-Way Nets》
Linking Image and Text with 2-Way NetsCVPR 2017这篇文章可以为Corr-AE中的Corr-Cross-AE结构的一种拓展,另外文章中加入了很多的技巧和约束,且都有理论上的证明。 在介绍这篇文章之前,先回顾一下Corr-Cross-AE结构。1.文本和图像特征分别通过encoder映射到共同空间,然后用L2计算文本和图像之间相似性,...原创 2018-08-08 15:52:00 · 454 阅读 · 0 评论 -
《Learning Semantic Concepts and Order for Image and Sentence Matching》
Learning Semantic Concepts and Order for Image and Sentence MatchingCVPR 2018一、Motivation目前该领域主要问题之一是像素级别的图片描述缺少高层次的语义信息,之前的做法都是提取一个全局的CNN特征向量。这样一些主要的信息就会占据主导地位,背景一些的就会被忽略。这篇文章提出了语义增强图片及语句匹配模型。...原创 2018-08-08 15:51:17 · 1167 阅读 · 1 评论 -
Triplet Loss
Triplet Loss三元组(Triplet)计算而来的损失(Loss)由Anchor(A),Negative(N),Positive(P)组成,基点为A,正匹配为P,负匹配为N。Triplet Loss的学习目标可以形象的表示如下图:网络没经过学习之前,A和P的欧式距离可能很大,A和N的欧式距离可能很小,如上图左边,在网络的学习过程中,A和P的欧式距离会逐渐减小,而A和N的...转载 2018-08-08 15:50:36 · 1867 阅读 · 0 评论 -
《Stacked Cross Attention for Image-Text Matching》
ECCV 2018主要思路:分别对文本和图像应用attention的机制,学习比较好的文本和图像表示,然后再在共享的子空间中利用hard triplet loss度量文本和图像之间的相似性。图像特征:采用ResNet-101的Faster R-CNN网络对每一个图像产生k个目标区域,提取每一个目标对象的特征,嵌入矩阵变换为h维的vector文本特征:文本的每一个word得到...原创 2018-08-08 15:49:41 · 4777 阅读 · 7 评论 -
Cross-media Retrieval
Reference:An Overview of Cross-media Retrieval: Concepts,Methodologies, Benchmarks and Challenges(关于跨模态检索的概念、方法、主要挑战和开放性问题,包括数据集和实验结果的基准)主要挑战:media gap不同模态的表示特征不一致并且位于不同的特征空间中,主要挑战是度量它们之间的相似性。...翻译 2018-08-08 15:48:25 · 1107 阅读 · 0 评论 -
《Adversarial Cross-Modal Retrieval》阅读笔记
论文地址:https://www.researchgate.net/publication/320541510_Adversarial_Cross-Modal_Retrievalwww.researchgate.net来源:ACM Multimedia 2017作者:电子科技大学英才实验学院2014级本科生王泊锟同学以第一作者身份发表,获ACM Multimedia 2017会议最佳...原创 2018-08-19 12:44:43 · 7649 阅读 · 19 评论 -
《Learning Cross-modal Embeddings for Cooking Recipes and Food Images》阅读笔记
论文地址:https://www.researchgate.net/publication/320964718_Learning_Cross-Modal_Embeddings_for_Cooking_Recipes_and_Food_Imageswww.researchgate.net来源:CVPR 2017一、Introduction文章要做的事情(recipe retreiv...原创 2018-08-08 15:45:18 · 1285 阅读 · 0 评论 -
《Cross-Modal Retrieval in the Cooking Context__Learning Semantic Text-Image Embeddings》
论文地址:https://arxiv.org/pdf/1804.11146.pdfarxiv.org来源:ACM SIGIR2018(暂未发布源码) 一、Introduction:文章要做的事情(recipe retreival):输入:image(sentence)+dataset 输出:sentence(image) rank list在本文中,我...原创 2018-08-08 15:43:24 · 953 阅读 · 0 评论 -
《Learning Cross-modal Embeddings for Cooking Recipes and Food Images》阅读笔记
来源:CVPR 2017一、Introduction文章要做的事情(recipe retreival):输入:image(sentence)+dataset 输出:sentence(image) rank list在本文中介绍了Recipe1M数据集,并训练一个食谱和图像联合嵌入的神经网络,应用于图像配方检索任务上。另外,证明通过添加高级分类目标的正则化既提高了检索性能。...原创 2018-08-08 15:45:15 · 938 阅读 · 3 评论 -
Cross-modal Retrieval
Cross-modal retrieval aims at retrieving relevant items that are of different nature with respect to the query format.Four Challenges:1.representation2.translation3.alignment(对齐)4.co-learnin...原创 2018-08-08 15:44:19 · 2111 阅读 · 0 评论 -
文本相似度算法总结
文本匹配算法主要用于搜索引擎,问答系统等,是为了找到与目标文本最相关的文本。例如信息检索可以归结成查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。一、传统模型基于字面匹配字面距离:字符串有字符构成,只要比较两个字符串中每一个字符是否相等便知道两个字符串是否相等,或者更简单一点将每一个字符串通过哈希函数映射为一个哈希值,然后进行比较。...原创 2019-06-04 20:12:06 · 28408 阅读 · 1 评论