- 博客(12)
- 资源 (12)
- 收藏
- 关注
转载 Hacker News与Reddit的算法比较
郑昀 20101213Hacker News是Y Combinator旗下的一个新闻频道,属于digg类产品,SEOmoz曾经在2008年7月隆重推出Reddit、Stumbleupon、Del.icio.us和Hacker News算法全揭秘。由此,这些知名Web2.0网站的算法浮出水面。谷文栋曾在2009年时如下讲述了Hacker News的Ranking算
2012-06-25 12:04:04 972
转载 决策树算法学习
决策树是一个类似于流程图的树结构;其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。一棵典型的判定树如下图。这是一个用于预测不同的天气条件下比赛是否能如期举行。ID3算法下面是著名的ID3算法的伪代码:Generate_decision_tree(samples,attribute_list){
2012-06-25 11:15:52 609
转载 Aho-Corasick算法学习
1、概述Aho-Corasick自动机算法(简称AC自动机)1975年产生于贝尔实验室。该算法应用有限自动机巧妙地将字符比较转化为了状态转移。此算法有两个特点,一个是扫描文本时完全不需要回溯,另一个是时间复杂度为O(n),时间复杂度与关键字的数目和长度无关。好了,我们先看下最原始的多模式匹配算法:主串T,n=strlen(T)。模式串Pi mi = strlen(pi)
2012-06-21 16:43:34 581
转载 Boyer-Moore算法学习
1、概述在用于查找子字符串的算法当中,BM(Boyer-Moore)算法是目前相当有效又容易理解的一种,一般情况下,比KMP算法快3-5倍。BM算法在移动模式串的时候是从左到右,而进行比较的时候是从右到左的。BM算法在移动模式串的时候是从左到右,而进行比较的时候是从右到左的。常规的匹配算法移动模式串的时候是从左到右,而进行比较的时候也是是从左到右的,基本框架是:j =
2012-06-21 16:03:13 781
转载 网页去重-算法篇
1. I-Match2. Shingliing3. SimHashing( locality sensitive hash)4. Random Projection5. SpotSig6. combinedI-Match算法 I-Match算法有一个基本的假设说:不经常出现的词和经常出现的词不会影响文档的语义,所以这些词是可以去掉的。 算法的基本思想是:将文档中有语
2012-06-21 15:34:28 562
转载 AdaBoost
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用
2012-06-19 21:17:52 921
转载 支持向量机通俗导论(理解SVM的三层境界)
作者:July、pluskid;致谢:白石。出处:结构之法算法之道blog。前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,从5月22日凌晨两点在微博上说我要写了,到此刻真正动笔要写此文,中间竟然隔了近半个月(而后你会发现,我写完此文又再得花半个月,前后加起来,写这个SVM便要花近一个月)。原因很简单,一者这个东西本
2012-06-15 19:11:11 1278
转载 基于用户投票的排名算法
目录 基于用户投票的排名算法(一):Delicious和Hacker News 基于用户投票的排名算法(二):Reddit 基于用户投票的排名算法(三):Stack Overflow 基于用户投票的排名算法(四):牛顿冷却定律 基于用户投票的排名算法(五):威尔逊区间 基于用户投票的排名算法(六):贝叶斯平均 基于用户投票的排名算法(一):Deli
2012-06-07 19:47:41 1793
转载 机器学习在互联网应用面临的 10 大挑战
1: “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 …2:“不平稳随机过程产生的数据”:机器学习模型往往假设数据的产生是 “平稳随机过程”。但是有些互联网数据(比如 spam 邮件,
2012-06-06 23:40:20 1321
转载 关于序列的几个算法
1.求最小子序列的和就是对于连续的序列,找出连续序列中和最小的例如:int a[LEN] = {4,-1,5,-2,-1,2,6,-2,1,-3};最小的子序列就是:-2,1,-3对于下面的最大子序列就是:4,-1,5,-2,-1,2,6。 Cpp代码 /** *最小子序列和 *n
2012-06-06 23:34:14 1101
转载 找素数算法总结
问题描述:寻找素数 求小于自然数N的所有素数。解决方案程序 1-1 经典算法经典的素数判定算法是这样:给定一个正整数n,用2到sqrt(n)之间的所有整数去除n,如果可以整除,则n不是素数,如果不可以整除,则n就是素数。所以求小于N的所有素数程序如下: #include #include #define N 1000000 int main
2012-06-06 23:31:34 1427
转载 动态规划
以前在学习非数值算法的时候,曾经了解过动态规划算法(Dynamic programming),以下是对Wikipedia上动态规划的翻译,图也是Wikipedia上的,仓促行文,不到之处,请方家指正。这篇文章的术语实在是太多了,所以我在文中加入了少量注释,一律以粗斜体注明。本文的不足之处将随时修正,MIT的《Introduction to Algorithms》第15章是专
2012-06-06 22:49:34 521
软件项目管理 人件中文第二版
2009-02-22
编程高手箴言.chm
2009-01-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人