自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

pennyliang的专栏

梁斌的博客

  • 博客(6)
  • 资源 (2)
  • 收藏
  • 关注

原创 搜索引擎简史[转]

搜索引擎发展史1990年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常

2007-01-29 16:02:00 2125 1

原创 sigmoid函数的用途

sigmoid函数是一个良好的阈值函数,连续,光滑严格单调关于(0,0.5)中心对称对阈值函数        _ 1, x > /deltaf(x)= /      /       - 0, x 的良好近似其导数f(x)=f(x)*[1-f(x)],可以节约计算时间f(x) = 1/[1+e^(-x)].图形如上。如果x = a*r.其中a为倾斜系数,当a足够小,这个图形可以无限

2007-01-14 11:39:00 26330 2

原创 停用词的自动检测

令一个停用词为f(i),nj(f(i)) 表示停用词i在时间窗口j内所有文本中出现的次数。 时间窗口典型的选择1天。时间窗口出现的文本,为这个时间产生的网页文章。例如在今天“沙达姆”出现在1000个文档中的20篇,则nj(f(i))=20。另Pj [nj(f(i))=K] 表示停用词i在时间窗口j内所有文本中出现的次数为K的概率。K符合超几何分布。(不妨回忆一下超几何分布,在一个已知正品概

2007-01-12 15:02:00 2753

原创 Rocchio算法,其他分类算法通用阈值确定方法

通过对PR曲线的绘制,了解阈值设定对PR值影响的状况,这里假定P,R都是重要的,采用角平分线和该曲线的交点,交点处为PR值达到最佳的点,作为调和平均数F-measure,P,R均取高值,该指标才可能高。下图为公交分类过程中,阈值不同,描出的不同点,通过计算夹角余玄设定为0。2为最理想。 

2007-01-10 15:45:00 5084

原创 google定制的搜索引擎

我的搜索引擎    Google CSE Search Box Begins -->  form id="searchbox_008110756901039689918:u4suebjp27s" action="http://www.google.com/cse">    input type="hidden" name="cx" value="00

2007-01-09 23:08:00 1505

原创 空间换时间,Memoization,单件模式,备忘录模式,之间的关系。

在设计模式中,名字的命名一般都和具体应用有关,这里我们从单件模式,和备忘录模式挖掘一些深层次的东西。 首先来看单件模式,本质上,它是构造一次,每次要用到的时候不需要重复构造,直接取出即可,我们不妨把构造变成计算,那么就是,计算一次,然后存储,不在重复计算。在看备忘录模式,每个对象都含有内部状态,但是对象的状态都在不断变化,如何保留这些变化,备忘录模式协助我们保留用户的状态,那么本质上也

2007-01-06 16:50:00 2147

Topology-Calculation-Tuning本学期一份组内报告

这是一个在组内做的技术报告,从技术的观点,介绍了布局,计算和调优的工作,这些工作是一个工程师的必修课,这里以点带面的进行了展开,是为了表明,编代码不是盲目的写,而是要有计划,有层次,有把握地去写,我水平有限,这些只是自己的思考,因为我还刚上路呢。。。

2011-01-19

微软企业文化内训资料

微软企业文化内训资料,该资料主要介绍微软组织架构,价值观,管理理念等等

2010-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除