搜索引擎
_iorilan
10年以上软件工程经验,先后从事在线教育/IT金融/即时通信/政府/物流平台/零售/门禁/监控等领域。专注夯实基础/项目成本与架构平衡/框架调研/团队高效协同工作
展开
-
如何确定网页和查询的相关性
[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子转载 2011-07-11 15:08:17 · 1534 阅读 · 0 评论 -
数学之美:GOOGLE新闻归类算法与余弦定理
原文:http://www.kuqin.com/math/20071204/2786.html余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新转载 2011-07-11 14:43:37 · 3155 阅读 · 2 评论 -
C#网络爬虫与搜索引擎调研
效果页面: 大致思路: 一个入口链接,例如:www.sina.com.cn,从它入手开始爬,找到了链接,(在此可以解析出网页内容,输入一个关键字,判读是否包含输入的关键字,包含就把这个链接以及网页相关内容放入缓存),把爬到的连接放入缓存,递归执行。 做的比较简陋,算是自己总结一下。 同时启动10个线程,每个线程对应各自的连接池缓存,把包含关键字的连接都放入同一个缓存原创 2011-10-25 11:59:00 · 6377 阅读 · 0 评论