转载
1.02^365的成长裂变
每天比别人努力一点,坚持下去就是裂变的威力~
展开
-
[面试题] 随机数相关面试题(2)
1. 给你一个数组,设计一个既高效又公平的方法随机打乱这个数组(此题和洗牌算法的思想一致)方法比较简单,基本思想是每次随机取一个数,然后把它交换到最后的位置。然后对前(n-1)个数使用递归的算法。递归实现:void suffle_dfs(int ar[], int n) { if(n swap(ar[n-1], ar[rand()%n]);转载 2017-09-10 20:51:17 · 3988 阅读 · 0 评论 -
[面试题] 随机数相关面试题(1)
1. 谷歌面试题:给定能随机生成整数1到5的函数,写出能随机生成整数1到7的函数。此题的关键是让生成的1到7的数出现概率相同。只要我们可以从n个数中随机选出1到n个数,反复进行这种运算,直到剩下最后一个数即可。我们可以调用n次给定函数,生成n个1到5之间的随机数,选取最大数所在位置即可满足以上要求。例如,初始的7个数[1,2,3,4,5,6,7],7个1到5的随机数[5,3转载 2017-09-10 20:51:14 · 4870 阅读 · 0 评论 -
[自然语言处理] LSA与pLSA(2)
EM求解在似然值L的表达式中存在对数内部的加运算,所以球pLSA最大似然解的问题没有闭式解,我们只能求助于EM算法,下面我们从最简单的启发式的角度推导出pLSA的求解过程。既然似然值L无法直接求解最大值,那么我们转而优化其下界F,并通过迭代不断的将此下界提高,那么最终得到的解即为L近似最大解, 当然,此过程中寻求的下界F要求尽量紧确。因为:0<p(zk|di,wj)<1,∑Kk=1p(...转载 2017-09-10 20:54:33 · 4179 阅读 · 0 评论 -
[自然语言处理] LSA与pLSA(1)
1. 引子Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如:稀疏性(Sparseness): 对于大词典,...转载 2017-09-10 20:54:29 · 11149 阅读 · 1 评论 -
[自然语言处理] 向前-向后算法(Baum-Welch算法)
学习问题在HMM模型中,已知隐藏状态的集合S,观察值的集合O,以及一个观察序列(o1,o2,...,on),求使得该观察序列出现的可能性最大的模型参数(包括初始状态概率矩阵π,状态转移矩阵A,发射矩阵B)。这正好就是EM算法要求解的问题:已知一系列的观察值X,在隐含变量Y未知的情况下求最佳参数θ*,使得:在中文词性标注里,根据为训练语料,我们观察到了一系列的词(对应EM中的X),如果每个词的词性(...转载 2017-09-10 20:54:23 · 6062 阅读 · 1 评论 -
[自然语言处理] 隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的例子,一个序...转载 2017-09-10 20:54:20 · 12364 阅读 · 0 评论 -
[机器学习] 随机森林与GBDT
前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。 模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,这些算法最终的结果是生成N(可能会...转载 2017-09-10 20:54:26 · 3763 阅读 · 0 评论