自然语言处理各种模型讲解及实现
鞍-
这个作者很懒,什么都没留下…
展开
-
NLP自然语言处理之基于BiLstm的短文本情感分析
1、BILSTM基本原理 前向的LSTM与后向的LSTM结合成BiLSTM。比如,我们对“我爱中国”这句话进行编码,模型如图1所示。2、情感分析步骤收集数据:爬虫爬取 数据预处理:特征:切词----停用词过滤----词嵌入(word2vec) 标签:类别数字化----onehot编码 搭建模型:bilstm----cnn----选择参数(k折...原创 2019-12-01 02:30:36 · 4752 阅读 · 4 评论 -
NLP自然语言处理之情感分析分析讲解、知识构建
!!!!!!不要急着代码,搞清楚原理知识结构才下手,以后还指着它吃饭呢,又不是水一篇论文当混子!!!!!!!!!!!!!书越读越薄,本文源自:https://blog.csdn.net/linxid/article/details/83478720!!!!!!! 情感分析是从书面或口头语言中,对特定主题,理解观点的自动过程。 在世界上,我们每天生成2.5QB字...转载 2019-11-29 07:47:24 · 12292 阅读 · 2 评论 -
NLP自然语言处理之RNN--LSTM--GRU--seq2seq--attention--self attetion
1、RNN原理和数学公式""" 执行# 定义RNN的参数。 X = [1,2] state = [0.0, 0.0] w_cell_state = np.asarray([[0.1, 0.2], [0.3, 0.4]]) w_cell_input = np.asarray([0.5, 0.6]) b_cell = np.asarray([0.1, -0.1]) w_outp...原创 2019-11-23 07:22:25 · 780 阅读 · 0 评论 -
NLP之RNN-LSTM-GRU的tensorflow实现
1、RNN--LSTM--GRU序列的tensorflow实现(单层) 这里只需要定义一个即可,其余的cell进行替换即: BasicRNNCell是最基本的一种cell --(替换为)--> RNNCell、BasicLSTMCell、LSTMCell、GRUCelltf.nn.dynamic_rnn(cell, inp...原创 2019-11-21 23:44:25 · 960 阅读 · 1 评论 -
NLP自然语言处理之句法分析
1、句法分析的基本概念 句法分析不是一个自然语言处理任务的最终目标,但它往往是实现最终目标的关键环节。目的:确定句子的语法结构 句子中词汇之间的依存关系 句法分析分为句法结构分析和依存关系分析两种。以获取整个句子的句法结构为目的的称为完全句法分析,而以获得局部成分为目的的语法分析称为局部分析,依存关系分析简称依存分析。 主要任务有三种:判断...原创 2019-11-17 21:03:03 · 6584 阅读 · 0 评论 -
CRF条件随机场----原理讲解和代码实现(命名实体识别--序列标注问题)
1、CRF条件随机场引入 几个概念介绍:随机场:由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场 马尔科夫随机场:马尔科夫随机场是随机场的特例,它及假设随机场中某个位置的赋值仅仅与和它相邻的位置的赋值有关,与其不相邻的位置的值无关 条件随机场:CRF是马尔科夫随机场的特例,它假设马尔科夫随机场中只有X和Y两种变量,且X一般是...原创 2019-11-16 02:19:36 · 3242 阅读 · 9 评论 -
NLP工具之结巴--1、jieba切词主要使用介绍和代码实现
1、结巴介绍 支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 同时支持繁体分词、支持自定义词典、MIT 授权协议,这里介绍三个使用该系统的案例https://gith...原创 2019-11-10 12:33:47 · 1772 阅读 · 0 评论 -
中文分词算法-----3、基于统计和机器学习的分词之HMM算法
1、HMM原理讲解 大名鼎鼎的隐马模型HMM,哈哈哈终于来了,可以自己讲一讲了,希望自己也能把PLSA/LDA/EM讲清楚,加油啦!!!!!! 1、案例讲解 假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子(称这个骰子为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6。第二个骰子是个四面体(称这个骰子为D4),每个面(...原创 2019-11-13 21:31:05 · 1136 阅读 · 0 评论 -
中文分词算法-----2、机械分词算法之MMSEG机械分词算法
1、原理介绍 MMSEG消除歧义的规则有四个,它在使用中依次用这四个规则进行过滤,直到只有一种结果或者第四个规则使用完毕。这个四个规则分别是:最大匹配:选择“词组长度最大的”那个词组,然后选择这个词组的第一个词,作为切分出的第一个词,如对于“中国人民万岁”,匹配结果分别为: 中/国/人 中国/人/民 中国/人民/万岁 中国人/民/万岁 在这个例子“词组长度最长的”词...原创 2019-11-12 00:01:20 · 235 阅读 · 0 评论 -
中文分词算法-----1、介绍--机械分词--机械分词代码实现
1、中文分词算法介绍 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义。分词算法是文本挖掘的基础,通常应用于自然语言处理、搜索引擎、智能推荐等领域。 分类:第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词...原创 2019-11-11 23:44:44 · 760 阅读 · 0 评论 -
NLP技能之文本摘要提取--TextRank算法和代码实现(借助jiebaAPI/非原生)
1、文本摘要提取 文本摘要可以大致分为两类——抽取型摘要和抽象型摘要:抽取型摘要:这种方法依赖于从文本中提取几个部分,例如短语、句子,把它们堆叠起来创建摘要。因此,这种抽取型的方法最重要的是识别出适合总结文本的句子。 抽象型摘要:这种方法应用先进的NLP技术生成一篇全新的总结。可能总结中的文本甚至没有在原文中出现。 这里我们使用的Textrank算法就是抽取...原创 2019-11-11 01:55:54 · 2844 阅读 · 0 评论 -
中科院ICTCLAS分词汉语词性标记集
1. 名词 (1个一类,7个二类,5个三类)名词分为以下子类:n 名词nr 人名nr1 汉语姓氏nr2 汉语名字nrj 日语人名nrf 音译人名ns 地名nsf 音译地名nt 机构团体名nz 其它专名nl 名词性惯用语ng 名词性语素2. 时间词(1个一类,1个二类)t 时间词tg 时间词性语素3. 处所词(1个一类)s 处所...转载 2019-11-11 01:45:21 · 667 阅读 · 0 评论 -
LDA主题模型--原理讲解1:铺垫和基础
1、铺垫 最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,不知是因为这篇文档的前序铺垫太长,还是因为其中的数学推导细节太多,导致一直没有完整看完过。现在才意识到这些“铺垫”都是深刻理解LDA 的基础,如果没有人帮助初学者提纲挈领、把握主次、理清思路,则很容易陷入LDA的细枝末节之中,LDA模型的数学推导是比较复杂的...原创 2019-11-08 22:16:59 · 1663 阅读 · 0 评论 -
TF-IDF的原理和实现
1、TF-IDF原理是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDFTF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征IDF,即“逆文本频率”,几乎所有文本都会出现的"的"其词频虽然高,但是重要性却应该比词频低的"西瓜"和“中国”要低...原创 2019-11-08 17:37:46 · 641 阅读 · 0 评论 -
nlp自然语言处理之word2vec--cbow和skip gram实现
1、基于gensim实现word2vecfrom gensim.models import Word2Vecmodel = Word2Vec(LineSentence(inp), size=100, window=10, min_count=3, workers=multiprocessing.cpu_count(), sg=1, iter=10, negative...原创 2019-11-08 00:03:08 · 544 阅读 · 0 评论 -
nlp自然语言处理之word2vec--cbow和skip gram讲解
1、模型结构——CBOW输入层:上下文单词的onehot。单词向量空间dim为V,上下文单词个数为C 所有onehot分别乘以共享的输入权重矩阵W。V*N矩阵,N为自己设定的数,初始化权重矩阵W 所得的向量相加求平均作为隐层向量,size为1*N. 乘以输出权重矩阵W' 得到向量1*V激活函数处理得到V-dim概率分布,对应V个单词 概率最大的index所指示的单词为预测出...原创 2019-11-07 21:30:04 · 414 阅读 · 0 评论