自然语言处理
炼丹大法
这个作者很懒,什么都没留下…
展开
-
NLP实践-数据集探索
1、THUCNews 1.1 数据集介绍 本数据集是清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约74万篇文档,训练起来需要花较长的时间)。 本次训练使用了其中的10个分类(体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐),每个分类6500条,总共65000条新闻数据。 数据集划分如下: cnews.train.txt: 训练集(...原创 2019-03-03 20:44:57 · 699 阅读 · 0 评论 -
NLP词向量
离散表示 One-hot独热表示法 NLP 中最常用、最传统的词特征表示方式是采用One-Hot 编码,即每一个词特征都被表示成一个很长的向量,其长度等于词表大小,当前词对应位置为1,其他位置为0。 但是这种表示方式存在显而易见的问题: * 不同词之间总是正交的,无法衡量不同词之间的相似关系。 * 只能反映每个词是否出现,但无法突出词之间重要性的区别。 BOW词袋表示法 在One-Hot ...原创 2019-03-13 21:24:46 · 267 阅读 · 0 评论 -
NLP实践-特征选择
TF-IDF原理 1.1 文本向量化特征的不足 在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,比如在文本挖掘预处理之向量化与Hash Trick这篇文章中,我们将下面4个短文本做了词频统计: corpus=["I come to China to travel", "This is a car polupar in China", ...原创 2019-03-08 23:00:54 · 209 阅读 · 0 评论 -
Text-CNN的原理与应用
目前对NLP的研究分析应用最多的就是RNN系列的框架,比如RNN,GRU,LSTM等等,再加上Attention,基本可以认为是NLP的标配套餐了。但是在文本分类问题上,相比于RNN,CNN的构建和训练更为简单和快速,并且效果也不差,所以仍然会有一些研究。 那么,CNN到底是怎么应用到NLP上的呢? 不同于CV输入的图像像素,NLP的输入是一个个句子或者文档。句子或文档在输入时经过embeddin...原创 2019-03-15 22:04:49 · 1579 阅读 · 1 评论 -
TextRNN和TextRCNN实现文本分类
TextRNN TextRNN原理 这里的文本可以一个句子,文档(短文本,若干句子)或篇章(长文本),因此每段文本的长度都不尽相同。在对文本进行分类时,我们一般会指定一个固定的输入序列/文本长度:该长度可以是最长文本/序列的长度,此时其他所有文本/序列都要进行填充以达到该长度;该长度也可以是训练集中所有文本/序列长度的均值,此时对于过长的文本/序列需要进行截断,过短的文本则进行填充。总之,要使...原创 2019-03-18 00:17:57 · 3241 阅读 · 1 评论