![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本分类
chen_yiwei
这个作者很懒,什么都没留下…
展开
-
NLP实践一:数据探索(数据集处理)
THUCnews与IMDB数据预处理THUCnews数据下载读取数据与分词IMDB数据下载读取数据与分词参考链接THUCnews数据下载中文数据集:THUCNewsTHUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud读取数据与分词以测试集为例:import pandas as pdimport numpy as nptrain...原创 2019-03-03 11:27:47 · 1517 阅读 · 4 评论 -
NLP实践四:朴素贝叶斯实现文本分类
朴素贝叶斯原理贝叶斯公式条件独立公式,如果X和Y相互独立,则有: P(X,Y)=P(X)P(Y)\ P(X,Y) =P(X)P(Y) P(X,Y)=P(X)P(Y)条件概率公式: P(Y∣X)=P(X,Y)/P(X)\ P(Y|X) = P(X,Y)/P(X) P(Y∣X)=P(X,Y)/P(X) P(X∣Y)=P(X,Y)/P(Y)\...转载 2019-03-08 17:10:45 · 770 阅读 · 1 评论 -
NLP实践四:SVM实现文本分类
SVM的简单理解(参考机器学习之SVM)线性分类线性分类的目的就是将数据分开,如图:怎么确定最佳的分隔线?从直观上来说,分割的间隙越大越好,把两个类别的点分得越开越好。在SVM中,成为Maximum Marginal, 是svm的一个理论基础之一。选择是的空隙最大的函数是有很多道理的。比如从概率的角度讲, 就使的置信度最小的点置信度最大。上图中被红色和蓝色的线圈出来的点就是所谓的支...转载 2019-03-08 20:21:59 · 10935 阅读 · 1 评论 -
NLP实践四:LDA主题模型
LDA主题模型基本原理LSA(Latent semantic analysis,隐性语义分析)、pLSA(Probabilistic latent semantic analysis,概率隐性语义分析)和 LDA(Latent Dirichlet allocation,隐狄利克雷分配)这三种模型都可以归类到话题模型(Topic model,或称为主题模型)中。相对于比较简单的向量空间模型,主题...转载 2019-03-09 19:59:57 · 530 阅读 · 0 评论 -
NLP实践七:TextCNN原理与代码实践
文章目录TextCNN原理Pytoch代码实现TextCNN文本分类模型定义训练TextCNN原理TextCNN是一种应用于文本分类的卷积神经网络,由Yoon Kim 在Convolutional Neural Networks for Sentence Classification 一文中提出。extCNN的网络结构如图所示,由词嵌入层,卷积层,最大池化层和全连接层组成。词嵌入层:假设...原创 2019-03-14 22:28:51 · 1113 阅读 · 0 评论 -
NLP实践八:TextRNN和TextRCNN实现文本分类
TextRNN原理这里的文本可以一个句子,文档(短文本,若干句子)或篇章(长文本),因此每段文本的长度都不尽相同。在对文本进行分类时,我们一般会指定一个固定的输入序列/文本长度:该长度可以是最长文本/序列的长度,此时其他所有文本/序列都要进行填充以达到该长度;该长度也可以是训练集中所有文本/序列长度的均值,此时对于过长的文本/序列需要进行截断,过短的文本则进行填充。总之,要使得训练集中所有的文本...转载 2019-03-16 15:09:44 · 6797 阅读 · 0 评论 -
NLP实践六:Fasttext实现文本分类
文章目录一 Fasttext原理模型架构层次SoftMaxN-gram子词特征二 Pytorch代码实践模型定义:训练函数定义:数据加载:训练:一 Fasttext原理fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。参考FastText算法原理解...原创 2019-03-13 11:36:33 · 2935 阅读 · 1 评论 -
NLP实践九:HAN原理与文本分类实践
文章目录HAN原理代码实践HAN原理参考多层注意力模型用于文本分类的注意力模型整个网络结构包括五个部分:1)词序列编码器2)基于词级的注意力层3)句子编码器4)基于句子级的注意力层5)分类整个网络结构由双向GRU网络和注意力机制组合而成,具体的网络结构公式如下:1)词序列编码器给定一个句子中的单词witw_{it}wit,其中 i 表示第 i 个句子,t 表示第 t 个...转载 2019-03-18 19:55:10 · 2428 阅读 · 0 评论