搜索引擎
cao5
这个作者很懒,什么都没留下…
展开
-
Larbin 一种高效的搜索引擎爬虫工具::[Search Engine]
离开dallas已经整整十天了,基本上除了到处见见人之外基本上没有其它的时间来学习新知识,也没有空将要完成的工作收尾。Niu.la ,Booso,luliang.dhs.org 和 wespoke 相继宕机,看来年底各个地方的维护都不力。itseek的开发者多次问起 larbin 的事情,我就在这里对larbin做一个简单的介绍。因为相对于复杂的系统来讲,larbin具有高度的可配置性,和良好的工转载 2005-03-29 22:18:00 · 1222 阅读 · 0 评论 -
再说机器新闻的分类和聚类::[Search Engine]
Google 新闻改版了,把我想实现的最关键的一部分实现了,没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。想法和技术在与同竞争对手的面前都不是关键,关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3,4个月了,一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差,而且关于新闻内容的摘要常常也是文不对题,可是就是在这样的磕磕绊绊中google的转载 2005-03-29 22:24:00 · 2503 阅读 · 0 评论 -
计算机文本分类和模糊聚类::[Search Engine]
机器人新闻的Beta版本:机器新闻中心,因为没有更多的时间开发,暂时收集大家意见和建议,等月底再继续开发。1.什么是分类?分类就是将一片文章/文本自动的识别出来,按照先验的类别进行匹配,确定。什么是聚类?聚类就是将一组的文章/文本/信息进行相识性的比较,将比较相识的文章/文本/信息归为同一组的技术。什么是模糊聚类?模糊聚类就是没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差等转载 2005-03-29 22:34:00 · 2118 阅读 · 2 评论