深度学习与自然语言处理_hoohaa

深度学习与自然语言处理

关注

介绍深度学习在自然语言处理领域的应用。主要是论文的介绍和代码实现。

关注数：文章数：10 文章阅读量：54142 文章收藏量：289

作者: hoohaa_

北京邮电大学研究生在读研究方向：自然语言处理,对话系统 Github（欢迎star and follow~~）： https://github.com/pnnngchg 邮箱：1142715814@qq.com 博客：https://blog.csdn.net/pnnngchg

展开

文本分类实战---自训练词向量word2vec

这次的比赛在词向量的处理上使用了很多方法和分析手段，包括之前分析词向量对文本的覆盖的文章，针对覆盖程度对原始数据进行文本的预处理。到后面的使用tfidf和embedding结合的方法表示文本。这些方法都是在丰富和完整文本的表示。也都在效果上得到了提升。但是在比赛中有一点我一直很困惑，就是使用Google提供的Word2Vec表示文本会降低分类准确率，讨论区也有参赛这对这个问题提出了疑问，但是没有...

原创 2019-01-29 18:29:51 · 4268 阅读 · 2 评论
文本分类实战----数据处理篇----embeddings与vocab中词汇不相覆盖问题的处理办法

上一篇文章我们讲了一些数据处理的方法。这一篇我们来对数据进行一些分析，帮助我们更好的理解数据的基础上，为后面的工作做一些基础。也希望有一些积累，在后面遇到相似的任务事可以举一反三。好了，话不多说，我们开始。embeddings与vocab中词汇不相覆盖问题我们使用的预训练好的embeddings词向量来对训练集和测试集中的词汇表vocab进行向量的映射，这里存在的一个问题是预训练embedd...

原创 2018-12-17 18:58:28 · 8088 阅读 · 2 评论
文本分类实战---数据分布不平衡问题

最近在做的项目的数据集里的数据分布非常不平衡，虽然是简单的二分类任务，但是两类数据的比例相差有两个数量级。因此查了一些解决数据分布不平衡的方法，在这里先总结一下，后面会单独挑出一些方法实现，并针对相应的代码和效果在写一篇文章。1.重新采样训练集可以使用不同的数据集。有两种方法使不平衡的数据集来建立一个平衡的数据集——欠采样和过采样。1.1 欠采样欠采样是通过减少丰富类的大小来平衡数据集，当...

原创 2019-01-04 10:41:16 · 9613 阅读 · 2 评论
流量分类方法设计（一）——参考论文整理

流量分类方法设计（一）——参考论文整理因为最近在做流量分类有关的工作，所以将整个工作思路整理下来，希望对以后进一步的学习和论文写作有所帮助。这一篇主要整理一下最近有关流量分类的论文，介绍他们的设计方法，以及创新点。传统流量分类方法早期的分类方法其一是基于端口，比如HTTP协议使用80端口，SSL使用443端口，这样基于数据包中端口号就能对协议进行区分。但是随着网络中数据复杂度...

原创 2018-04-05 16:05:59 · 12449 阅读 · 10 评论
Word2Vec详解

Word2Vec详解这几天集中学习了Word2Vec，实现并不复杂，但是真正对一些细节有些了解还查阅了一些资料，今天在这里统一自己整理总结一下。简介首先说为什么会有Word2Vec，之前对文字的编码通常使用的是one-hot，也就是一个词对应一个编号，或者是一个向量，这样一篇文章就是一个稀疏矩阵。这种方式存在两个问题：1.不同于视频音频的稠密矩阵，稀疏矩阵储存和训练就很低效；2.编...

原创 2018-04-13 10:54:50 · 11148 阅读 · 1 评论
论文Convolutional Naural Networks for Sentence Classification阅读（一）----模型介绍篇

前一段时间阅读了Yoon Kim发表的论文Convolutional Naural Networks for Sentence Classification，现在抽时间吧相关的内容记录下来。包括模型的介绍和代码实现。这篇文章介绍第一部分。论文使用CNN处理NLP问题，使用预先处理的词向量处理句子层面的分类问题，在情感分析（sentiment analysis）和问题分类（question cl...

原创 2018-05-26 15:23:25 · 326 阅读 · 0 评论
论文Convolutional Naural Networks for Sentence Classification阅读（一）----模型实现篇

之前把模型介绍了，也自己写了代码实现，但一直拖着没有吧博客写出来。最近要做句子相似度相关的项目，想要自己写一个模型，想到了这个简单的模型，才惊觉博客一直没写，所以现在补课，也是一个复习TensorFlow实现模型的过程。本文主要参考了Denny Britz的文章和代码。1.数据及预处理实验所用的数据集是Movie Review data from Rotten Tomatoes，即MR电影...

原创 2018-06-25 14:08:29 · 398 阅读 · 2 评论
文本分类实战----数据处理篇

最近在参加kaggle上的一个文本分类的比赛，因为持续时间比较长，有两个月的时间，想在这期间详细的学习一下文本分类的方法和知识，所以会持续更新一些博客来记录参赛的过程。在比赛结束后，我会将参赛过程中使用的代码放到我的Github上面，大家相互学习。主要会包括如何处理数据，参赛中使用的模型，一些重要方法的原理等方面的东西。本篇主要记录数据的处理方法。任务介绍首先我们介绍一下这个比赛的任务，是对输...

原创 2018-12-11 12:50:51 · 3269 阅读 · 4 评论
Hierarchical Attention Networks for Document Classification 模型理解篇

Hierarchical Attention Networks for Document Classification 模型理解篇最近看了HAN用在文本分类的这篇文章。提出的模型使用了分层的注意力机制，对应了文本在字词和句子两个层面的结构。也就是分别在字词层面和句子层面使用注意力机制。这样做的好处有两个：1.模型可以给与不同主要性的字词或者句子不同的关注度，最终的任务效果因此会更好。2.注意力机...

原创 2018-11-09 10:47:53 · 3063 阅读 · 0 评论
Hierarchical Attention Networks for Document Classification 实现篇

Hierarchical Attention Networks for Document Classification 实现篇上一篇blog我们介绍了HAN模型，这一篇我们来介绍一下代码实现部分。代码放到我的github上，欢迎大家讨论。数据集首先介绍一下数据集。我们使用的数据是YELP下的电影评论数据，可以从这里下载https://github.com/rekiksab/Yelp-Dat...

原创 2018-11-09 15:30:54 · 1525 阅读 · 4 评论

深度学习与自然语言处理

作者: hoohaa_

文本分类实战---自训练词向量word2vec

文本分类实战----数据处理篇----embeddings与vocab中词汇不相覆盖问题的处理办法

文本分类实战---数据分布不平衡问题

流量分类方法设计（一）——参考论文整理

Word2Vec详解

论文Convolutional Naural Networks for Sentence Classification阅读（一）----模型介绍篇

论文Convolutional Naural Networks for Sentence Classification阅读（一）----模型实现篇

文本分类实战----数据处理篇

Hierarchical Attention Networks for Document Classification 模型理解篇

Hierarchical Attention Networks for Document Classification 实现篇