- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 搜索引擎简史[转]
搜索引擎发展史1990年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常
2007-01-29 16:02:00 2126 1
原创 sigmoid函数的用途
sigmoid函数是一个良好的阈值函数,连续,光滑严格单调关于(0,0.5)中心对称对阈值函数 _ 1, x > /deltaf(x)= / / - 0, x 的良好近似其导数f(x)=f(x)*[1-f(x)],可以节约计算时间f(x) = 1/[1+e^(-x)].图形如上。如果x = a*r.其中a为倾斜系数,当a足够小,这个图形可以无限
2007-01-14 11:39:00 26333 2
原创 停用词的自动检测
令一个停用词为f(i),nj(f(i)) 表示停用词i在时间窗口j内所有文本中出现的次数。 时间窗口典型的选择1天。时间窗口出现的文本,为这个时间产生的网页文章。例如在今天“沙达姆”出现在1000个文档中的20篇,则nj(f(i))=20。另Pj [nj(f(i))=K] 表示停用词i在时间窗口j内所有文本中出现的次数为K的概率。K符合超几何分布。(不妨回忆一下超几何分布,在一个已知正品概
2007-01-12 15:02:00 2753
原创 Rocchio算法,其他分类算法通用阈值确定方法
通过对PR曲线的绘制,了解阈值设定对PR值影响的状况,这里假定P,R都是重要的,采用角平分线和该曲线的交点,交点处为PR值达到最佳的点,作为调和平均数F-measure,P,R均取高值,该指标才可能高。下图为公交分类过程中,阈值不同,描出的不同点,通过计算夹角余玄设定为0。2为最理想。
2007-01-10 15:45:00 5085
原创 google定制的搜索引擎
我的搜索引擎 Google CSE Search Box Begins --> form id="searchbox_008110756901039689918:u4suebjp27s" action="http://www.google.com/cse"> input type="hidden" name="cx" value="00
2007-01-09 23:08:00 1506
原创 空间换时间,Memoization,单件模式,备忘录模式,之间的关系。
在设计模式中,名字的命名一般都和具体应用有关,这里我们从单件模式,和备忘录模式挖掘一些深层次的东西。 首先来看单件模式,本质上,它是构造一次,每次要用到的时候不需要重复构造,直接取出即可,我们不妨把构造变成计算,那么就是,计算一次,然后存储,不在重复计算。在看备忘录模式,每个对象都含有内部状态,但是对象的状态都在不断变化,如何保留这些变化,备忘录模式协助我们保留用户的状态,那么本质上也
2007-01-06 16:50:00 2147
Topology-Calculation-Tuning本学期一份组内报告
2011-01-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人