NLP
文章平均质量分 52
YZXnuaa
乍见之欢不如久处不厌
展开
-
文本分类算法综述
文本分类大致有两种方法:一种是基于训练集的文本分类方法;另一种是基于分类词表的文本分类方法。两种方法出自不同角度的研究者,训练集法更多的来自计算机或人工智能研究领域,而分类表法则更多地来自突出情报领域。本文主要介绍前一种。基于训练集的文本分类是一种典型的有教师的机器学习问题,一般分为训练和分类两个阶段,具体过程如下:训练阶段:1) 定义类别集合 ,这些类别可是是层次式的,...原创 2018-03-16 10:40:08 · 2595 阅读 · 0 评论 -
LSTM结构理解与python实现
上篇博客中提到,简单的RNN结构求解过程中易发生梯度消失或梯度爆炸问题,从而使得较长时间的序列依赖问题无法得到解决,其中一种越来越广泛使用的解决方法就是 Long Short Term Memory network (LSTM)。本文对LSTM做一个简单的介绍,并用python实现单隐藏层LSTM。参考资料:理解LSTM: http://colah.github.io/posts/2015-08-...转载 2018-04-11 13:22:53 · 887 阅读 · 0 评论 -
TF-IDF算法解析与Python实现
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。比较容易理解的一个应用场景是当我们手头有一些文章时,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能够用于评估一个词语对于一个文集...转载 2018-04-16 17:50:41 · 938 阅读 · 0 评论 -
TFIDF介绍
任务一:现在有一篇长文《中国的蜜蜂养殖》,用计算机提取它的关键词。1、词频:如果某个词很重要,它应该在这篇文章中多次出现。我们进行"词频"(Term Frequency,缩写为TF)统计。2、停用词:结果你肯定猜到了,出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"(stop words),表示对找到结果毫无帮助、必须过滤掉的词。 规则一:如果某个词比较...转载 2018-04-16 14:32:31 · 3679 阅读 · 0 评论 -
ML:自然语言处理NLP面试题
自然语言处理的三个里程碑:http://blog.csdn.net/sddamoke/article/details/1419973两个事实分别为:一、短语结构语法不能有效地描写自然语言。二、短语结构规则的覆盖有限。Chomsky 曾提出过这样的假设,认为对一种自然语言来说,其语法规则的数目是有限的,而据此生成的句子数目是无限的。文中提到的三个里程碑式的进展为:一、复杂特征集。复杂特征集又叫多重属...转载 2018-03-28 10:33:18 · 2598 阅读 · 0 评论 -
LSTM的推导与实现
最近在看CS224d,这里主要介绍LSTM(Long Short-Term Memory)的推导过程以及用Python进行简单的实现。LSTM是一种时间递归神经网络,是RNN的一个变种,非常适合处理和预测时间序列中间隔和延迟非常长的事件。假设我们去试着预测‘I grew up in France...(很长间隔)...I speak fluent French’最后的单词,当前的信息建议下一个此可...转载 2018-04-09 16:46:10 · 717 阅读 · 2 评论 -
解决The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()问题
def bottom_data_is(self, x, s_prev=None, h_prev=None): # if this is the first lstm node in the network if [s_prev == None]: s_prev = np.zeros_like(self.state.s) if [h_prev == None]...原创 2018-04-08 15:42:29 · 9101 阅读 · 0 评论 -
随机采样方法整理与讲解(MCMC、Gibbs Sampling等)
本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:) 背景 随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划...转载 2018-03-21 14:36:22 · 688 阅读 · 0 评论 -
概率图模型学习笔记:HMM、MEMM、CRF
作者:Scofield链接:https://www.zhihu.com/question/35866596/answer/236886066来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。概率图模型学习笔记:HMM、MEMM、CRF一、Preface二、Prerequisite 2.1 概率图 2.1.1 概览 2.1.2 有向图 vs....转载 2018-03-20 15:21:47 · 14661 阅读 · 2 评论 -
语言模型系列之N-Gram、NPLM及Word2vec
根据上文公式1 P(w1w2...wT)=∏ni=1P(w1)P(w2|w1)P(wi|w1w2...wi−1),词w出现的在序列位置T的概率取决于序列前面1~T-1所有词,而这样的模型参数空间巨大,训练计算量惊人且数据稀疏。而BOW(unigram)中,每维特征信息量过少。 依据著名马尔科夫假设(Markov Assumption),在N-gram中词T的概率仅仅受前N-1个词影响。N元模型公式...转载 2018-03-16 11:36:03 · 2586 阅读 · 0 评论 -
RNN 长期依赖问题
1.长期依赖问题 RNN面临的最大挑战就是无法解决长期依赖问题。例如对下面两句话:最后的was与were如何选择是和前面的单复数有关系的,但对于简单的RNN来说,两个词相隔比较远,如何判断是单数还是复数就很关键。长期依赖的根本问题是,经过许多阶段传播后的梯度倾向于消失(大部分情况)或爆炸(很少,但对优化过程影响很大)。对于梯度爆炸是很好解决的,可以使用梯度修剪(Gradient Clippi...原创 2018-04-19 19:39:52 · 6957 阅读 · 0 评论