NLP-learning
文章平均质量分 97
我想听相声
这个作者很懒,什么都没留下…
展开
-
NLP(二):中文文本特征处理
目录一.基本文本处理技能暂时先学一下基于词典的方法、基于统计的分词和词、字符频率统计1.基于词典的方法(字符串匹配,机械分词方法)1.1正向最大匹配思想MM1.2逆向最大匹配算法RMM1.3双向最大匹配法(Bi-directction Matching method,BM)2.基于统计的分词(无字典分词)2.1N-gram模型思想3.词、字符频率统计3.1...原创 2019-04-11 21:19:34 · 2695 阅读 · 0 评论 -
jieba库学习:jieba分词,词性标注等
1.三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。jieba.cut方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型im...原创 2019-06-25 20:28:01 · 1965 阅读 · 0 评论 -
NLP(十):RNN和LSTM的反向传播BPTT,GPU,Text-RNN的原理及其keras实现
目录1. RNN1.1 RNN的结构(前向传播)1.2RNN的前向传播1.3 RNN的反向传播BPTT1.4 RNN的优缺点2. 双向RNN3. 针对梯度爆炸,梯度消失的解决4. LSTM及GRU4.1LSTM4.1.1 LSTM之遗忘门4.1.2LSTM之输入门4.1.3LSTM之细胞状态更新4.14LSTM之输出门4.2GRU...原创 2019-05-06 16:09:49 · 1123 阅读 · 0 评论 -
NLP(八)补充:基于Hierarchical Softmax的word2vec两种模型(CBOW与Skip-Gram)
目录1.基于Hierarchical Softmax的CBOW模型2.CBOW模型的求解3.基于Hierarchical Softmax的Skip-Gram模型4.Skip-Gram模型的求解5.word2vec源代码word2vec一般分为CBOW(Continuous Bag-of-Words与Skip-Gram两种模型。在上篇文章中简单介绍了这两种模型。本文具体介绍...原创 2019-04-24 22:06:58 · 614 阅读 · 0 评论 -
NLP(六):文本话题模型之pLSA、LDA
目录1. 共轭先验分布1.1似然函数1.2先验概率p(θ)1.3后验概率P(θ|x)1.4共轭先验分布2.pLSA3.LDA(Latent Dirichlet allocation)4.LDA数学分析LDA主题模型5.LDA的应用场景和缺点6.LDA的sklearn实现及其参数scikit-learn LDA主题模型主要参数和方法6.scikit...原创 2019-04-19 17:51:00 · 1200 阅读 · 0 评论 -
NLP(八):文本表示:word2vec原理及其gensim实现
关于本文的补充:具体介绍基于Hierarchical Softmax的word2vec两种模型(CBOW与Skip-Gram)目录1.BOG词袋模型下的文本向量 -discrete representation2.word2vec词向量 - Distributedrepresentation2.1神经网络语言模型-Neural Network Language Mode2....原创 2019-04-23 21:30:04 · 1885 阅读 · 0 评论 -
NLP(四):朴素贝叶斯原理及文本分类的sklearn实现
目录1.朴素贝叶斯原理2.基于的朴素贝叶斯的文本分类的sklearn实现2.1首先基于sklearn的dataset数据集,贴上朴素贝叶斯手写数字识别的历程。2.2sklearn朴素贝贝叶斯文本分类的实现1.朴素贝叶斯原理直接贴上自己的朴素贝叶斯(参考书籍为西瓜书)学习笔记:2.基于的朴素贝叶斯的文本分类的sklearn实现2.1首先基于sklearn的data...原创 2019-04-14 18:49:58 · 2873 阅读 · 0 评论 -
NLP(七):前馈神经网络基础回顾(NN模型及其正则化,dropout,各种梯度求解算法等模型优化策略)
目录1.前馈神经网络及其相关概念2.前馈神经网络的Tensorflow实现2.1tensorflow的图模式下的NN实现2.2tf.keras实现3.1Sigmoid3.2Tanh3.3ReLU3.4LReLU、PReLU与RReLU4.深度学习中的正则化4.1参数范数惩罚4.2 L1和L2正则化4.3数据集增强4.4噪声添加4.5提前终止...原创 2019-04-21 22:00:58 · 2383 阅读 · 0 评论 -
NLP(九):Text-CNN原理及使用Text-CNN文本分类的keras实现
目录1. 卷积的定义与动机1.1 卷积运算的定义1.2 卷积层的计算原理1.3卷积运算的动机2. 反卷积3. 池化层的定义、种类和动机3.1 池化运算的定义3.2 池化层的种类3.3 池化的动机4.Text-CNN原理5.利用Text-CNN进行文本分类的keras实现1. 卷积的定义与动机1.1 卷积运算的定义一维卷积的数学形式化定义如下:...原创 2019-04-25 21:18:45 · 5073 阅读 · 1 评论 -
NLP(三):文本表示的特征选取(TF-IDF,互信息)
目录1.TF-IDF概述*首先我们先回顾一下学习计划()二)中提到的文本向量化表示:https://blog.csdn.net/weixin_42483560/article/details/892186982.TF-IDF的sklearn实现方法一:方法二:3.(点)互信息原理3.1点互信息3.2互信息4.互信息的sklearn实现1.TF-IDF概述...原创 2019-04-13 21:29:48 · 1224 阅读 · 0 评论 -
NLP(五):支持向量机SVM原理及文本分类的sklearn实现
目录1.SVM原理2.sklearn库SVM算法的参数介绍2.1算法库概述2.2sklearn内置的SVM核函数2.3SVM分类算法库参数小结3.基于的SVM分类器的文本分类的sklearn实现基于朴素贝叶斯的文本分类实现参见我的博客:NLP学习计划(四):朴素贝叶斯原理及文本分类的sklearn实现:https://blog.csdn.net/weixin_424...原创 2019-04-15 21:59:49 · 3797 阅读 · 0 评论 -
NLP(一):THUCNews和IMDB数据集探索和评价指标温习。
目录1.IMDB数据集1.1数据集介绍1.2数据集探索2.THUCnews数据集2.1数据集介绍2.2数据集探索3.评价指标3.1分类结果混淆矩阵3.2准确率(查准率)3.3召回率(查全率)3.4ROC曲线和AUC1.IMDB数据集1.1数据集介绍IMDB数据集下载地址为:http://ai.stanford.edu/~amaas/data/...原创 2019-04-08 21:33:45 · 944 阅读 · 0 评论 -
NLP神器Gensim库(一):入门操作
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口一:语料库的预训练(将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。)由于语言和应用的多样...原创 2019-06-27 17:06:09 · 11159 阅读 · 2 评论