算法
unbounder
这个作者很懒,什么都没留下…
展开
-
文档分类(1)朴素贝叶斯模型
wiki地址:[url]http://en.wikipedia.org/wiki/Bayesian_model_comparison[/url]做爬虫、做搜索、做数据挖掘都免不了对数据做索引,更进一步的操作应该是对得到文档做分类操作。传统yahoo目录式网页导航就是一个很典型的文档分类应用,利用文档分类确定特定领域也能更好的进行数据挖掘。朴素贝叶斯模型是文档分类的重要一支,也是基础...2009-10-23 14:24:21 · 101 阅读 · 0 评论 -
谈谈BM25评分
rookie,轻拍[b]1 什么是BM25[/b]先摘录一段wiki[quote][size=large]BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of ...2009-07-03 17:34:39 · 384 阅读 · 0 评论 -
简单实现全排列(java)
看见provista在研究这个,自己写一个试试看,动态规划的思路,时间复杂度和空间复杂度懒得算了。[code="java"] public void start(final T[] srcString) { // TODO Auto-generated method stub int index = 0; Set set = new HashSet(); while ...2009-08-10 11:34:54 · 111 阅读 · 0 评论 -
poj碰到的异或算法
异或这玩意并不常用,但是一些算法题很好用。异或满足交换律结合律对于a^b^c=b^c^a又有a^a = 0,0^a =a对于数值查找时,异或可能是最好的办法。2010-05-31 21:14:05 · 124 阅读 · 0 评论 -
百度一道笔试题(求整形n中含有1的数量)
常见题,挺简单的譬如7(111) 含有3个1主要是了解 与运算 记录一下。[code="java"]public static void main(String[] args) { int i = 5; int index = 1; while (true) { int temp = i & (i - 1); if (temp != 0) { ...2010-06-03 16:33:19 · 92 阅读 · 0 评论 -
针对文档匹配时为何选择乘法的理由
搜索引擎排序不也是这样吗,既要考虑网页内容与用户查询的匹配程度,又要考虑网页本身的质量。但是,怎么把这两种因素结合起来,得到一个,而不是两个或多个排序标准呢?假如我们把这两种因素表示成数值,最终的排序依据是把这两个数值加起来,还是乘起来,或是按决策树的办法把它们组织起来?如果是加起来,是简单相加,还是带权重加呢? 我们可以根据直觉和经验,通过试错的办法,把这两个因素结合起来。但更...原创 2011-04-18 15:23:53 · 125 阅读 · 0 评论