深度学习与自然语言处理
介绍深度学习在自然语言处理领域的应用。主要是论文的介绍和代码实现。
hoohaa_
北京邮电大学研究生在读
研究方向:自然语言处理,对话系统
Github(欢迎star and follow~~):
https://github.com/pnnngchg
邮箱:1142715814@qq.com
博客:https://blog.csdn.net/pnnngchg
展开
-
文本分类实战---自训练词向量word2vec
这次的比赛在词向量的处理上使用了很多方法和分析手段,包括之前分析词向量对文本的覆盖的文章,针对覆盖程度对原始数据进行文本的预处理。到后面的使用tfidf和embedding结合的方法表示文本。这些方法都是在丰富和完整文本的表示。也都在效果上得到了提升。但是在比赛中有一点我一直很困惑,就是使用Google提供的Word2Vec表示文本会降低分类准确率,讨论区也有参赛这对这个问题提出了疑问,但是没有...原创 2019-01-29 18:29:51 · 4268 阅读 · 2 评论 -
文本分类实战----数据处理篇----embeddings与vocab中词汇不相覆盖问题的处理办法
上一篇文章我们讲了一些数据处理的方法。这一篇我们来对数据进行一些分析,帮助我们更好的理解数据的基础上,为后面的工作做一些基础。也希望有一些积累,在后面遇到相似的任务事可以举一反三。好了,话不多说,我们开始。embeddings与vocab中词汇不相覆盖问题我们使用的预训练好的embeddings词向量来对训练集和测试集中的词汇表vocab进行向量的映射,这里存在的一个问题是预训练embedd...原创 2018-12-17 18:58:28 · 8088 阅读 · 2 评论 -
文本分类实战---数据分布不平衡问题
最近在做的项目的数据集里的数据分布非常不平衡,虽然是简单的二分类任务,但是两类数据的比例相差有两个数量级。因此查了一些解决数据分布不平衡的方法,在这里先总结一下,后面会单独挑出一些方法实现,并针对相应的代码和效果在写一篇文章。1.重新采样训练集可以使用不同的数据集。有两种方法使不平衡的数据集来建立一个平衡的数据集——欠采样和过采样。1.1 欠采样欠采样是通过减少丰富类的大小来平衡数据集,当...原创 2019-01-04 10:41:16 · 9613 阅读 · 2 评论 -
流量分类方法设计(一)——参考论文整理
流量分类方法设计(一)——参考论文整理因为最近在做流量分类有关的工作,所以将整个工作思路整理下来,希望对以后进一步的学习和论文写作有所帮助。 这一篇主要整理一下最近有关流量分类的论文,介绍他们的设计方法,以及创新点。传统流量分类方法早期的分类方法其一是基于端口,比如HTTP协议使用80端口,SSL使用443端口,这样基于数据包中端口号就能对协议进行区分。但是随着网络中数据复杂度...原创 2018-04-05 16:05:59 · 12449 阅读 · 10 评论 -
Word2Vec详解
Word2Vec详解这几天集中学习了Word2Vec,实现并不复杂,但是真正对一些细节有些了解还查阅了一些资料,今天在这里统一自己整理总结一下。简介首先说为什么会有Word2Vec,之前对文字的编码通常使用的是one-hot,也就是一个词对应一个编号,或者是一个向量,这样一篇文章就是一个稀疏矩阵。这种方式存在两个问题:1.不同于视频音频的稠密矩阵,稀疏矩阵储存和训练就很低效;2.编...原创 2018-04-13 10:54:50 · 11148 阅读 · 1 评论 -
论文Convolutional Naural Networks for Sentence Classification阅读(一)----模型介绍篇
前一段时间阅读了Yoon Kim发表的论文Convolutional Naural Networks for Sentence Classification,现在抽时间吧相关的内容记录下来。包括模型的介绍和代码实现。这篇文章介绍第一部分。 论文使用CNN处理NLP问题,使用预先处理的词向量处理句子层面的分类问题,在情感分析(sentiment analysis)和问题分类(question cl...原创 2018-05-26 15:23:25 · 326 阅读 · 0 评论 -
论文Convolutional Naural Networks for Sentence Classification阅读(一)----模型实现篇
之前把模型介绍了,也自己写了代码实现,但一直拖着没有吧博客写出来。最近要做句子相似度相关的项目,想要自己写一个模型,想到了这个简单的模型,才惊觉博客一直没写,所以现在补课,也是一个复习TensorFlow实现模型的过程。本文主要参考了Denny Britz的文章和代码。1.数据及预处理 实验所用的数据集是Movie Review data from Rotten Tomatoes,即MR电影...原创 2018-06-25 14:08:29 · 398 阅读 · 2 评论 -
文本分类实战----数据处理篇
最近在参加kaggle上的一个文本分类的比赛,因为持续时间比较长,有两个月的时间,想在这期间详细的学习一下文本分类的方法和知识,所以会持续更新一些博客来记录参赛的过程。在比赛结束后,我会将参赛过程中使用的代码放到我的Github上面,大家相互学习。主要会包括如何处理数据,参赛中使用的模型,一些重要方法的原理等方面的东西。本篇主要记录数据的处理方法。任务介绍首先我们介绍一下这个比赛的任务,是对输...原创 2018-12-11 12:50:51 · 3269 阅读 · 4 评论 -
Hierarchical Attention Networks for Document Classification 模型理解篇
Hierarchical Attention Networks for Document Classification 模型理解篇最近看了HAN用在文本分类的这篇文章。提出的模型使用了分层的注意力机制,对应了文本在字词和句子两个层面的结构。也就是分别在字词层面和句子层面使用注意力机制。这样做的好处有两个:1.模型可以给与不同主要性的字词或者句子不同的关注度,最终的任务效果因此会更好。2.注意力机...原创 2018-11-09 10:47:53 · 3063 阅读 · 0 评论 -
Hierarchical Attention Networks for Document Classification 实现篇
Hierarchical Attention Networks for Document Classification 实现篇上一篇blog我们介绍了HAN模型,这一篇我们来介绍一下代码实现部分。代码放到我的github上,欢迎大家讨论。数据集首先介绍一下数据集。我们使用的数据是YELP下的电影评论数据,可以从这里下载https://github.com/rekiksab/Yelp-Dat...原创 2018-11-09 15:30:54 · 1525 阅读 · 4 评论