自然语言处理
文章平均质量分 70
Alexbyy
这个作者很懒,什么都没留下…
展开
-
隐马尔科夫模型知识点记录
隐马尔科夫模型前言本文的目的是主要是记录跟隐马尔可夫相关的概念。概念隐马尔科夫模型英文名称为Hidden Markov Model(HMM),其本质上是一个概率图模型,而概率图模型是一个大家族,先扔一个结构图:![概率图模型分类](https://img-blog.csdnimg.cn/20181206141701229.jpg?x-oss-process=image/waterma...原创 2020-06-09 10:31:18 · 329 阅读 · 0 评论 -
【深度学习】GRU的结构图及公式
GRU与LSTM的区别前面说到过LSTM的出现是为了解决传统RNN无法解决的长距离依赖问题而出现的,而GRU也具有该功能,但是结构相对于LSTM来说相对简单,可以将GRU看作是LSTM的一种优化或变体。GRU的结构图前向传播公式其中“*”代表矩阵乘法,“⋅”代表点乘(相应位置的元素乘相应位置的元素)rt=sigmoid(Wr∗[ht−1,xt]+br) r_t = sigmoid(W_...原创 2019-01-29 16:56:33 · 15360 阅读 · 0 评论 -
【深度学习】传统RNN的正向传播与反向传播
循环神经网络的正向传播与反向传播正向传播该图左边代表rnn循环图,右边代表rnn计算图前向循环计算公式:a(t)=Ux(t)+Wh(t−1)+ba^{(t)} = Ux^{(t)} + Wh^{(t-1)} +ba(t)=Ux(t)+Wh(t−1)+bh(t)=tanh(a(t))h^{(t)} = tanh(a^{(t)})h(t)=tanh(a(t))o(t)=Vh(t)+c...原创 2019-01-18 21:21:48 · 1958 阅读 · 1 评论 -
Numpy基本方法与属性
Numpy一、属性:ndarray.shape 返回一个元组,里面是各个维度的sizendarray.ndim 返回数组的维度ndarray.dtype 返回数组数据的类型二、方法:np.array(x, dtype=complex) 接收一个数组, dtype指定数据类型,np.zeros( (3,4) ) 接收一个代表数组维度size的元组np.ones((3...原创 2019-01-17 16:26:58 · 261 阅读 · 0 评论 -
【NLP学习笔记】(三)gensim使用之相似性查询(Similarity Queries)
相似性查询(Similarity Queries)本文主要翻译自https://radimrehurek.com/gensim/tut3.html在之前的教程语料和向量空间和主题和转换中,我们学会了如何在向量空间模型中表示语料和如何在不同的向量空间之间转换。实际工作中,这样做的一个最常见的目的是比较两个文档之间的相似性或比较某一个文档与其它文档的相似性(比如用户查询已经索引的文档中的某一个文档...翻译 2019-01-17 16:19:50 · 725 阅读 · 0 评论 -
【NLP学习笔记】(二)gensim使用之Topics and Transformations
本文主要翻译自:https://radimrehurek.com/gensim/tut2.html这个教程会向大家展示如何将代表文档的向量转换成另一种向量,做这件事的目的主要有两个:发现语料中的隐藏结构,比如词与词之间的联系,然后用一种全新的方式、一种更能表现语义的方式(semantic way)来描述文档。使文档的表示更加紧凑,这样可以提高效率和功效,因为新的表达方式消耗更少的资源...翻译 2019-01-17 16:18:35 · 269 阅读 · 0 评论 -
【NLP学习笔记】(一)Gensim基本使用方法
安装: pip install gensim本文内容主要翻译自https://radimrehurek.com/gensim/tut1.html#from-strings-to-vectors,中间加了些自己的理解,不理解之处大家可以直接看原文档。1、第一步、准备训练语料为了简单起见,我们假设列表documents代表语料库,每一句话代表一个文档,documents中有9个元素,也就是说该语...翻译 2018-12-10 16:01:49 · 1274 阅读 · 0 评论 -
【NLP学习笔记】用jieba实现高频词提取
高频词高频词提取(TF,Term Frequency),高频词指在文档中出现频率较高并且有用的词,关键点有两个:出现频率高、有用。第一步定义获取语料的函数def getContent(path,encoding='gbk): with open(path, r, encoding=encoding, errors='ignore') as f: content ...原创 2018-12-07 11:40:11 · 4917 阅读 · 1 评论 -
【NLP学习笔记】中文分词
分词通俗的讲就是如何将一个句子划分成词语,大多数情况下不同的划分方式会导致不同的语义。分词方法分类自动分词主要分为三个流派:规则分词、统计分词和混合分词(规则+统计)1、规则分词通过维护一个词典,在切分语句时,将语句的每个字符串与表中的词进行逐一匹配,找到则切分,否则不与切分。属于一种机械分词方法,匹配的方式又分为正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种。2、统计分词通...原创 2018-12-07 10:37:25 · 448 阅读 · 0 评论