搜索技术
安静的小丑
只有经历过地狱般的磨练,才有征服天堂的力量。只有流过血的手指才能弹出世间的绝唱。
展开
-
垂直搜索爬虫设计疑问?
由于我想开发一个垂直搜索引擎, 所以最近在关注垂直搜索引擎中的爬虫是如何爬取信息的? 现在我有4个疑问,希望能有人给点意见。 1、如何找到我们所需要的领域资源? 显然我们不可能象google,百度那样的在整个web上爬取网页,那样也不能搜集全我们要的领域资源,更新也太慢。就这个问题曾和两个做过垂直搜索的科技人员和老师聊过,他们的方法都是事先搜集全有关领域资源的网站,然后再定向爬取这...2009-03-18 12:24:38 · 142 阅读 · 0 评论 -
对抓取回来的海量原始网页存储结构设计
最近一直在搞爬虫相关的工作,现在在考虑抓取回来的原始网页存储问题 找了一些资料,也参考了天网的存储格式,现在头绪没有理清楚,该以怎样的结构存储对后期的再加工和查询等提高效率,希望做搜索的朋友一起讨论,哪里不对请指教...2009-09-13 23:25:37 · 150 阅读 · 0 评论 -
Spider最基本功能要求
一、一个大容量的页面文件容器。 1.1 该容器能保存上千万的HTML、图片、视频,但又不能产生过多的小文件。 1.2 该容器能通过URL快速存取文件(类似于HashMap) 1.3 该容器支持压缩存放。 1.4 该容器将页面的概要信息和内容分开存放。 1.5 该容器的存取性能不随存取文件数量的增长有大的变化。 二、一个高效的HTTP下载器 2.1 完全支持HTTP1...原创 2009-12-15 03:14:16 · 312 阅读 · 0 评论 -
垂直搜索平台初步构想
1.下载模块 * 采用HTTP1.1协议,支持HTTPS等常用协议。 * 编码问题: 支持自动识别,遇到得不到编码的网页采用分析网页的方式判断编码。 * 静态数据: 如新闻、博客等数据,直接下载生成XML存储到持久层以便下一环处理。 * 动态数据: 要支持登录验证,以及支持Cookie,要能理解简单的js等。 * 更新频率: 每次下载的数据和上次数据作一次对比(把上次的内容取M...2009-12-15 03:20:07 · 102 阅读 · 0 评论