自然语言处理
文章平均质量分 72
_Kevin_Duan_
这个作者很懒,什么都没留下…
展开
-
Word2Vec学习笔记(一)
目录Word2Vec基本数学内容语言模型Hierarchical Softmax 模型Negative Sampling 模型一、Word2Vec基本数学内容1. Sigmod 函数&absp;&absp;&absp;&absp;Sigmod函数通常在二分类中应用。它将样本映射后投影在[0, 1]范围内,对应样本所属的类的概率。函数表达式如下所示: f(x)=11+e−xf(x) =原创 2016-06-12 11:39:57 · 928 阅读 · 0 评论 -
NLP 最新进展
参考文献:•http://www.dataguru.cn/article-14237-1.html•https://zhuanlan.zhihu.com/p/46652512•https://github.com/google-research/bert•https://allennlp.org/el...原创 2018-12-06 13:56:17 · 748 阅读 · 0 评论 -
NLP的游戏规则从此改写?从word2vec, ELMo到BERT
NLP的游戏规则从此改写?从word2vec, ELMo到BERT2018-10-24 10:20| 发布者: 炼数成金_小数| 查看: 6920| 评论: 0|原作者: 夕小瑶|来自: 夕小瑶的卖萌屋http://www.dataguru.cn/article-14237-1.html摘要: 说来也都是些俗套而乐此不疲一遍遍写的句子,2013年Google的word2vec一出,让N...转载 2018-11-02 19:33:55 · 3056 阅读 · 0 评论 -
机器学习笔记(十七)——EM算法的推导
一、Jensen 不等式 在EM算法的推导过程中,用到了数学上的Jensen不等式,这里先来介绍一下。 若Ω是有限集合{x1,x2,…,xn}" role="presentation" style="position: relative;">{x1,x2,…,xn}{x1,x2,…,xn}\{x_1,x_2,\ldots,x_n\},而μ是Ω上的正规计数测度,则不等式的一原创 2016-10-22 12:45:00 · 3432 阅读 · 0 评论 -
Word2Vec学习笔记(四)——Negative Sampling 模型
前面讲了Hierarchical softmax 模型,现在来说说Negative Sampling 模型的CBOW和Skip-gram的原理。它相对于Hierarchical softmax 模型来说,不再采用huffman树,这样可以大幅提高性能。一、Negative Sampling在负采样中,对于给定的词ww,如何生成它的负采样集合NEC(w)NEC(w)呢?已知一个词ww,它的上下原创 2016-06-20 17:27:53 · 13917 阅读 · 2 评论 -
深入理解simhash原理
一、LSH 介绍 LSH(Locality sensitive hashing)是局部敏感性hashing,它与传统的hash是不同的。传统hash的目的是希望得到O(1)的查找性能,将原始数据映射到相应的桶内。 LSH的基本思想是将空间中原始数据相邻的2个数据点通过映射或者投影变换后,这两个数据点在新的空间中的相邻概率很大,不相邻的点映射到同一个桶的概率小。我们可以看到将一个在超大原创 2017-07-30 11:04:48 · 2230 阅读 · 0 评论 -
实时重复文章识别——SimHash
一、背景介绍 在前边的文章中,我们采用的是用google的Doc2Vec模型来识别重复文章的,从线上运行的效果来看,它的准确率是比较高的。当然,这是建立在把所有的文章都当做训练数据来训练Doc2Vec模型的基础上的,它推断出一篇文章的向量之后再去做相似计算的效果是不太好的。况且,训练模型的耗时是比较长的,因此,这种模型的适用性只适合于离线计算文章之间的相似,并不适合实时识别重复文章,由于我们现原创 2017-06-24 11:07:40 · 2364 阅读 · 0 评论 -
Spark下的word2vec模型训练
一、引言 前边一节介绍了Word2Vec模型训练同义词,那么在大数据量的情况下,我们自然想到了用spark来进行训练。下面就介绍我们是如何实现spark上的模型训练。二、分词 模型训练的输入是分好词的语料,那么就得实现spark上的分词。def split(jieba_list, iterator): sentences = [] for i in iterator:原创 2017-03-20 20:24:35 · 6535 阅读 · 0 评论 -
Word2Vec训练同义词模型
一、需求描述 业务需求的目标是识别出目标词汇的同义词和相关词汇,如下为部分目标词汇(主要用于医疗问诊): 尿 痘痘 发冷 呼吸困难 恶心数据源是若干im数据,那么这里我们选择google 的word2vec模型来训练同义词和相关词。二、数据处理 数据处理考虑以下几个方面: 1. 从hive中导出不同数据量的数据 2. 过滤无用的训练样本(例如字数少于原创 2017-03-05 11:27:45 · 13088 阅读 · 19 评论 -
机器学习笔记(十八)——HMM的参数估计
一、HMM中的第三个基本问题 参数估计问题:给定一个观察序列O=O1O2…OTO=O_1O_2\dots O_T,如何调节模型μ=(A,B,π)\mu = (A, B, \pi)的参数,使得P(O|μ)P(O|\mu)最大化: argmaxμP(Otraining|μ)arg \max_{\mu} P(O_{training}|\mu) 模型的参数是指构成μ\mu的πi,aij,bj(原创 2016-10-29 12:03:21 · 9489 阅读 · 0 评论 -
机器学习笔记(十四)——HMM估计问题和前向后向算法
一、隐马尔科夫链的第一个基本问题 估计问题:给定一个观察序列O=O1O2…OTO=O_1O_2\dots O_T和模型u=(A,B,π)u = (\boldsymbol{A,B,\pi}),如何快速地计算出给定模型uu情况下,观察序列OO的概率, 即P(O|u)P(O|u)?二、求解观察序列的概率 其实,求解这个问题就是一个解码问题。 对于任意的状态序列Q=q1q2…qTQ=q_原创 2016-09-25 11:49:00 · 2767 阅读 · 2 评论 -
机器学习笔记(十五)——HMM序列问题和维特比算法
一、引言 这篇blog主要讲序列问题和其解法——维特比算法。二、HMM中的第二个基本问题序列问题:给定一个观察序列O=O1O2…OTO=O_1O_2\dots O_T和模型u=(A,B,π)u=(\boldsymbol{A,B,\pi}),如何快速有效地选择在一定意义下”最优”的状态序列Q=q1q2…qTQ=q_1q_2\dots q_T,使得该状态序列“最好地解释”观察序列?三、定义最优状态原创 2016-10-03 11:12:12 · 2381 阅读 · 0 评论 -
机器学习笔记(十三)——隐马尔科夫模型
一、隐马尔科夫模型 在马尔科夫模型中,每一个状态代表了一个可以观察的事件,所以,马尔科夫模型有时称为可视马尔科夫模型(visible Markov model,VMM),这在某种程度上限制了模型的适应性。在隐马尔科夫模型(HMM)中,我们不知道模型所经过的状态序列,而只知道状态的概率函数,也就是说观察到的事件是状态的随机函数,此模型是一个双重的随机过程。其中,模型的状态转换过程是隐蔽的,可观察原创 2016-09-15 12:07:13 · 1634 阅读 · 0 评论 -
机器学习笔记(十二)——马尔科夫模型
马尔科夫模型是一种概率图模型,它描述了一类重要的随机过程(随机过程又称为随机函数,是随时间而随机变化的过程)。我们常常需要考察一个随机变量序列,这些随机变量序列并不是相互独立的,每个随机变量的值都依赖于这个序列前边的状态。 如果一个系统有NN个有限状态S={s1,s2,…,sN}S=\{s_1,s_2,\dots,s_N\},那么随着时间的推移,该系统将从一个状态转换到另一个状态。Q=(q1,原创 2016-09-03 11:47:29 · 2916 阅读 · 0 评论 -
Word2Vec学习笔记(三)续
三、(续)Skip-gram模型介绍 Skip-gram模型并不是和CBOW模型相反的,它们的目的都是计算出词的向量,只不过在作者的论文中给出的图看样子是反的而已。Skip-gram模型是用每个当前词去预测一定范围内除当前词之外前后的词。同样的,此模型也是输出一颗huffman树,如下图所示:此图也借用下图借用 http://blog.csdn.net/itplus/article/det原创 2016-06-15 14:21:41 · 841 阅读 · 0 评论 -
Word2Vec学习笔记(五)——Negative Sampling 模型(续)
本来这部分内容不多,是想写在negative sampling 中和cbow一起的,但是写了后不小心按了删除键,浏览器直接回退,找不到了,所以重新写新的,以免出现上述情况(接上)三、Negative Sampling 模型——Skip-gram 这部分内容并不多,与cbow相比,只是目标函数有所变化,推导过程这里就略过。总的来说,就是将目标函数取最大似然,然后利用SGD方法求出词向量和最优参数原创 2016-06-21 15:43:00 · 3621 阅读 · 2 评论 -
Word2Vec学习笔记(三)
三、Hierarchical Softmax模型3.1 词向量 词向量目前常用的有2种表示方法,One-hot representation 和 distributed representation. 词向量,顾名思义就是将一个词表示为向量的形式,一个词,怎么可以将其表现为向量呢?最简单的就是One-hot representation,它是以词典V中的词的个数作为向量的维度,按照字典序或某种原创 2016-06-13 16:44:51 · 1447 阅读 · 0 评论 -
Word2Vec学习笔记(二)
二、语言模型 语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。因此,统计语言模型出现了,并且得到了广泛的应用,统计语言模型是基于概率的,包括了N元文法模型(N-gram Model)原创 2016-06-12 14:20:21 · 829 阅读 · 0 评论 -
NLP技术路线详解:这是从数学到算法的艺术
nlp-roadmapnlp-roadmap is Natural Language Processing ROADMAP(Mind Map) and KEYWORD for students those who have interest in learning Natural Language Processing. The roadmap covers the materials fr...转载 2019-09-27 11:30:50 · 219 阅读 · 0 评论