算法
linluyisb
管理个人博客太麻烦, 回来csdn写点东西
展开
-
编程之美2.5求最大的k个数
人一停下来,就懒了,吼吼,活跃起来。最近看编程之美,看到2.5求最大的k个数,我看书上介绍很多,网上讨论也很多,感觉有点乱,也许没找到他们探讨的核心吧。我自己看了看,好像没有我想的这个方法。思路:用partion算法,求出第k大的数(O(n)),然后遍历一遍数组,求出最大的k个数(O(n)),整个算法的复杂度就是O(n).实现也很简单。个人觉得比较方便,简单,和编程之美上方法二,比原创 2013-03-15 15:36:20 · 837 阅读 · 0 评论 -
编程珠玑-第二章旋转算法篇
编程珠玑第二章比较精髓,开篇三个题目1:给定一个包含32位整数的顺序文件,它至多包含40亿个这样的整数,并且整数的次序是随机的,请查找一下此文件中不存在的32位整数(至少必有一个遗漏,为什么?)。在有足够的主存的情况下,你会如何解决这个问题?如果可以使用若干外部临时文件但主存却只有上百个字节,你会如何解决这个问题?2:请将一个具有n个元素的一维向量向左旋转i个位置。例如,假设n=8,i=3原创 2012-05-10 21:26:32 · 1102 阅读 · 0 评论 -
分治法的应用-排队购票,餐盘放苹果问题
一:问题描述,一场球赛开始前,售票正在进行。每张球票的价格为50元,现在有30个人排队等待购票,其中有20个人手持50元的钞票,另外10个人手持100元的钞票。假设开始售票时售票处没有零钱,求出这30人排队购票,使售票处不会出现找不开钱的局面的不同排队方案。特别要说的是:拿着同样面值的钞票的人对换位置后为同一排队方案。二:分析额,这题目貌似容易陷入排列组合中去考虑一般情形,有m原创 2013-06-03 15:29:26 · 1591 阅读 · 0 评论 -
文本分类小结
一:特征提取文本分类中一个重要的工作部分就是特征提取。常见的特征词提取方法有卡方,信息增益,信息增益比,期望KL距离等。链接http://blog.csdn.net/fighting_one_piece/article/details/37912051,这篇博客讲的十分详细,就不重复写了。不同的特征提取方法,会有自己的特点,用不同的分类的方法,效果也不一样,不能一概而论(遇到过数据集特征提原创 2015-02-13 11:25:10 · 1666 阅读 · 0 评论 -
奇异值分解SVD原理探讨
一:前言 写在前面,因为涉及到公式,选择了以图片的方式发。内容都是个人的一些理解,借鉴了网上的很多资料,因为太多,而且是几个月前写下的,这里实在没法一一列举参考文献了。 理解SVD的一些要点知识。1)矩阵本身的意义 2)矩阵乘法的意义原创 2015-01-15 18:20:36 · 1695 阅读 · 0 评论 -
奇异值分解(SVD)应用简介
一:前言 千里之行,始于足下,新的一年开始了,努力提升自己,从点滴做起。总结一下过去半年的工作。二:SVD在短文本相似度的应用 文本相似度计算中比较有名的算法Latent Semantic Analysis(LSI/LSA),就是用的SVD技术,将文档—词语矩阵(bag of words方法,或者TF,TF-IDF等)进行分解,构造低维的语义空间。用过的开源工具原创 2015-02-28 18:26:56 · 4484 阅读 · 0 评论 -
文本特征提取
前言@(NLP)[IG,X2,CE] TF-IDF可以有效的评估一个字词对于一个文件集或一个语料库的重要程度。但在文本分类中,它的区分度不够,没有考虑特征词在类间的分布。也就是选择特征应该在某类出现多,而其它类出现少。也没有考虑特征词在类内部文档的分布情况,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征。 特征提取的目的在于降维。卡方特征提取卡方检验最基本的思想是通过观察实际值原创 2015-03-31 16:34:22 · 1472 阅读 · 0 评论 -
probit模型
probit模型@(机器学习)[probit|logit] 今天看计算广告学,谈到最大熵与指数簇的一些关系,网上查资料,期间发现这个probit模型的概念,以前竟然完全没听过。因此花点时间来搞懂,网上的资料并不是很详细,因此形成一篇博客,分享给大家。probitprobit:多元概率比回归模型。学习一定要和logit regression进行对比,都是一种广义线性模型,事件发生的概率依赖于解释变量原创 2015-11-06 22:45:10 · 55362 阅读 · 2 评论 -
最大熵与逻辑回归的等价性
一:前言大概了解过逻辑回归与最大熵模型有些关系,但是一直没有理清楚。这次稍微深入理解了一下。逻辑回归是最大熵对应类别为两类时的特殊情况,也就是当逻辑回归类别扩展到多类别时,就是最大熵。下面会详细的进行证明。本文只是一个copy版本,内容源自:首先我们引入一些符号。假定输入是一个n维空间的实数向量。(考虑到公式在这里展示不好看,以图片的格式呈现)原创 2015-01-31 17:41:12 · 11318 阅读 · 0 评论