
自然语言处理
村头陶员外
B站,小红书,抖音等平台搜索 “Forrest的数据科学站”
展开
-
机器学习-- CRF总结
本次要总结的是条件随机场(CRF)相关知识原创 2020-10-25 14:51:36 · 750 阅读 · 1 评论 -
论文分享 -- NLP -- grid beam search
本篇博文主要总结论文 Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search,论文链接 gbs,参考的实现代码 codes。首先不得不说,对于初学者来说,beamsearch是一种稍微难理解的算法,而在此算法上衍生的grid beam search就更复杂了,因此本论文读起来有一定的难度。论文动机普通的beamsearch是由动态规划的方法找到最优的生成序列,但是这种方法在交互翻译场景可能并不适用,原创 2020-07-15 20:51:49 · 1416 阅读 · 6 评论 -
论文分享 -- > NLP -- > FreeLB
本次要总结和分享的是正在ICLR2020审稿的,关于NLU对抗学习的论文:FreeLB: Enhanced Adversarial Training for Language Understanding,论文链接 FreeLB,感觉该论文方法创新和实验效果均还不错,由于本人在对抗学习领域上水平有限,在此就对本篇论文进行一个浅显的解读,如有错误还望指正。论文动机对抗训练的初衷:目前人工智能技术...原创 2019-12-15 20:09:37 · 5373 阅读 · 0 评论 -
常用优化方法总结
本篇博文总结一些常用的优化算法。SGD最常见的优化方法是SGDSGDSGD ,基础的原理不详细讲了,讲下其缺陷。 θ=θ−η∗▿θJ(θ)θ=θ−η∗▽θJ(θ)\theta = \theta-\eta *\triangledown_{\theta} J(\theta) 1. 当学习率太小,到达最优点会很慢。 2. 当学习率太高,可能会跳过最优点,出现震荡的现象。 3. ...原创 2018-05-27 17:26:57 · 1297 阅读 · 0 评论 -
深度学习 -- >NLP -- > Deep contextualized word representations(ELMo)
本文将分享发表在2018年的NAACL上,outstanding paper。论文链接ELMo。该论文旨在提出一种新的词表征方法,并且超越以往的方法,例如word2vec、glove等。论文贡献点能捕捉到更复杂的语法、语义信息。能更好的结合上下文内容,对多义词做更好的表征。(以往的词表征方法,例如word2vec等可能无法很好的解决这个问题)能非常容易的将这种词表征方法整合进现有的模型中...原创 2019-04-29 20:44:17 · 710 阅读 · 0 评论 -
深度学习 -- > NLP -- >Improving Language Understanding by Generative Pre-Training
本文要分享总结的是论文Improving Language Understanding by Generative Pre-Training,论文链接openAI-GPT.论文动机以及创新点现实世界中,无标签的文本语料库非常巨大,而带有标签的数据则显得十分匮乏,如何有效利用无标签的原始文本,对缓解自然语言处理相关任务对有监督学习方式的依赖显得至关重要。有效的从无标签文本中利用超单词级...原创 2019-05-07 17:23:05 · 3761 阅读 · 1 评论 -
深度学习-- > NLP -- > improving multi-task deep neural networks via knowledge distillation for natural
本次总结和分享一篇大佬推荐看的论文improving multi-task deep neural networks via knowledge distillation for natural language understanding, 论文链接MT-DNN-KD动机和创新点集成学习的方法对提高模型的泛化能力在众多自然语言理解任务上已经得到了验证但是对于多个深度模型集成而成的集成模型...原创 2019-05-22 21:09:25 · 996 阅读 · 0 评论 -
深度学习 -- > NLP-- > BERT
本次分享和总结自己所读的论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,也就是大名鼎鼎的BERT,网上对这篇论文的解读非常多,在此就提下自己浅薄的见解。论文链接 BERT论文动机以及创新点语言模型的预训练已经在自然语言处理的各项任务上取得了有目共睹的效果。目前有两种途...原创 2019-05-18 17:37:13 · 1186 阅读 · 0 评论 -
论文分享 -- > NLP -- > Language Models are Unsupervised Multitask Learners
本次要总结和分享的论文是GPT2,参考的实现代码model。本论文方法是在openAI-GPT的基础上进行了一些微小的修改得到的,从模型的角度来讲,几乎没有修改,只是去掉了fine-tune过程,无论是在预训练和预测阶段都是完全的无监督,这点有点不可思议,但是的确做到了,而且效果还不错。网上对这篇论文的讲解非常多,这里本人就讲下自己浅薄的见解。本篇论文的核心思想并不难,但是我个人感觉论文读起来比...原创 2019-06-01 01:32:05 · 945 阅读 · 0 评论 -
论文分享 -- > NLP -- > Neural machine Translation of Rare Words with Subword Units
本次分享的是一篇16年的关于NLP中分词操作的论文,论文链接Subword,参考的实现代码subword-nmt,许多论文方法(例如BERT等)都将该方法应用到分词处理上,相对于word-level和character-level,该方法取得了不错的效果。动机和创新点机器翻译中,通常使用固定大小的词表,而在实际翻译场景中,应当是open-vocabulary。这就使得翻译数据集中的稀有词变得...原创 2019-06-09 18:09:46 · 2676 阅读 · 1 评论 -
评价指标总结
本篇博文主要总结下机器学习,深度学习,自然语言处理里面的一些的评价指标及其背后的原理。机器学习分类问题精确率 (Precision)TPTP+FPTPTP+FP\frac{TP}{TP+FP} 可以这样理解准确率:分母是我们这边所有预测为真的数量,包括正确预测为真的和错误预测为真的。召回率 (recall)TPTP+FNTPTP+FN\frac{TP}{TP+...原创 2018-05-27 15:31:03 · 2664 阅读 · 0 评论 -
RL for Sentence Generation
本篇博文主要总结下台大教授李宏毅深度学习课程中关于seqGANseqGANseqGAN 的相关内容,并且添加了自己的一些思考。Policy Gradient众所周知,强化学习的目标就是Maximizing Expected RewardMaximizing Expected RewardMaximizing\ Expected\ Reward,在se...原创 2018-05-22 17:27:38 · 561 阅读 · 0 评论 -
论文分享-->Attention-over-Attention Neural Networks for Reading Comprehension
本次要分享的论文是Attention−over−AttentionNeuralNetworksforReadingComprehensionAttention-over-Attention\ Neural\ Networks\ for\ Reading\ Comprehension,论文链接AoA,论文源自ACL2017ACL2017,参考的实现代码代码链接。 好了,老规矩,带着代码看论原创 2018-05-07 21:06:29 · 775 阅读 · 1 评论 -
深度学习-->NLP-->NNLM简介
本篇博文将总结NLPNLP 里面的embeddingembedding,word2vectorword2vector,以及NNLMNNLM 的简介。embedding在一般任务中,我们总是非常自然的用特征值来表示一个词汇。但是,到底怎么样表示一个词,才是最合理的? 存储其ASCIIASCII 码表示,只会告诉你这个词是什么,并不能表示这个词真正的语义(也许你可以从这个词的词缀中获得该词的词性或其他属原创 2017-10-13 09:26:40 · 1740 阅读 · 0 评论 -
深度学习-->NLP-->Seq2Seq Learning(Encoder-Decoder,Beam Search,Attention)
之前总结过RNNLMRNNLM,是一个SequenceModel,其结构类似如下:这里面是一个一个的输出。我们如果以这种方式做机器翻译,每一个时刻输入一个词,相应的翻译一个词,显然这种一个一个单词的翻译方式不是很好,因为没有联系上下文进行翻译。我们希望先把一整句话喂给模型,然后模型在这一个整句的角度上来进翻译。这样翻译的效果更好。所以本篇博文要总结的是Seq2Seq Model,给出一个完整的句子,原创 2017-11-22 23:48:26 · 3251 阅读 · 0 评论 -
深度学习-->NLP-->RNNLM实现
本篇博文将详细总结RNNLMRNNLM 的原理以及如何在tensorflowtensorflow 上实现RNNLMRNNLM。我们要实现的网络结构如下:数据预处理创建vocabvocab分词:将句子中的每个单词以空格,符号分开,形成一个单词列表def blank_tokenizer(sentence): ##以空格对句子进行切分 return sentence.strip().spl原创 2017-11-20 17:40:39 · 4017 阅读 · 1 评论 -
论文分享-->Independently Recurrent Neural Network (IndRNN): Building A Longer and Deeper RNN
本周开始,我将一周分享和总结三篇关于自然语言处理方面的论文及其开源代码(如果有的话),以期在三个月后的校招面试中能招架住面试官的各种提问。本篇论文中了CVPR2018CVPR\ 2018,提出了一种新型的 RNNRNN 模型,论文实验显示相对于传统的RNNRNN以及LSTMLSTM、GRUGRU,它在更长步长的数据集上有更好的表现,克服了传统 RNNRNN 的一些缺点,具体总结分析请看下面。传统原创 2018-04-24 17:12:19 · 2600 阅读 · 0 评论 -
论文分享-- >Adversarial Learning for Neural Dialogue Generation
本次要分享的论文是Adversarial Learning for Neural Dialogue GenerationAdversarial Learning for Neural Dialogue GenerationAdversarial\ Learning\ for\ Neural\ Dia...原创 2018-05-17 14:52:32 · 1673 阅读 · 1 评论 -
论文分享-- >SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
本次要分享和总结的论文为:SeqGAN:SequenceGenerativeAdversarialNetswithPolicyGradientSeqGAN:\ Sequence\ Generative\ Adversarial\ Nets\ with\ Policy\ Gradient,其论文链接SeqGAN,源自AAAI−17AAAI-17,参考的实现代码链接代码实现。本篇论文原创 2018-05-10 23:42:19 · 4790 阅读 · 5 评论 -
论文分享-- >word2Vec论文总结
一直以来,对word2vecword2vec,以及对 tensorflowtensorflow 里面的wordEmbeddingwordEmbedding底层实现原理一直模糊不清,由此决心阅读word2Vecword2Vec的两篇原始论文,EfficientEstimationofWordRepresentationsinVectorSpaceEfficient\ Estimation原创 2018-04-26 15:33:51 · 6870 阅读 · 3 评论 -
Adversarial Learning for Neural Dialogue Generation 代码分析
作为一名NLPlayerNLPlayerNLPlayer 初学者,或者是一名道行不是很深的NLPlayerNLPlayerNLPlayer ,很有必要细细的评读相关优秀的论文,但是如果只是读论文,而不去探索实际的代码的实现,可能无法提高代码能力,也比较难的深刻理解论文中的一些细节,所以在读完论文后,详细的分析其开源代码,了解整个的实现过程非常有必要。那么代码需要分析到什么程度呢?我的实习经历告...原创 2018-05-18 16:33:42 · 2576 阅读 · 6 评论 -
论文分享-- >Attention is all you need
本次分享的论文是鼎鼎有名的attentionisallyouneedattention\ is\ all\ you\ need,论文链接attention is all you need,其参考的tensorflowtensorflow 实现代码tensorflow代码实现。自己水平有限,在读这篇论文和实现代码时,感觉比较吃力,花了两三天才搞懂了一些,在此总结下。废话不多说,直接带着代码看论原创 2018-04-30 17:03:36 · 2524 阅读 · 3 评论 -
论文分享-->GloVe: Global Vectors for Word Representation
本次要分享和总结的论文是GloVe:Global Vectors for Word RepresentationGloVe: Global\ Vectors\ for\ Word\ Representation,这是一篇介绍新的word Representationword\ Representation 方法,该方法现在越来越常被提起,其主要对标的是word2Vecword2Vec方法,论文链接G原创 2018-05-03 23:19:53 · 8318 阅读 · 6 评论 -
深度学习-->NLP-->语言模型
从本篇博文开始总结NLPNLP相关知识。概率语言模型(StatisticalLanguageModel)(Statistical\ Language\ Model)p(sentence)=p(w1,w2,..,wn){p}(sentence)={p}({w}_{1},{w}_{2},..,{w}_{n})∑sentence∈Lp(sentence)=1\sum_{sentence\in L}^{原创 2017-10-12 18:17:11 · 991 阅读 · 0 评论