- 博客(4)
- 问答 (1)
- 收藏
- 关注
垂直搜索平台初步构想
1.下载模块 * 采用HTTP1.1协议,支持HTTPS等常用协议。 * 编码问题: 支持自动识别,遇到得不到编码的网页采用分析网页的方式判断编码。 * 静态数据: 如新闻、博客等数据,直接下载生成XML存储到持久层以便下一环处理。 * 动态数据: 要支持登录验证,以及支持Cookie,要能理解简单的js等。 * 更新频率: 每次下载的数据和上次数据作一次对比(把上次的内容取M...
2009-12-15 03:20:07 102
原创 Spider最基本功能要求
一、一个大容量的页面文件容器。 1.1 该容器能保存上千万的HTML、图片、视频,但又不能产生过多的小文件。 1.2 该容器能通过URL快速存取文件(类似于HashMap) 1.3 该容器支持压缩存放。 1.4 该容器将页面的概要信息和内容分开存放。 1.5 该容器的存取性能不随存取文件数量的增长有大的变化。 二、一个高效的HTTP下载器 2.1 完全支持HTTP1...
2009-12-15 03:14:16 312
对抓取回来的海量原始网页存储结构设计
最近一直在搞爬虫相关的工作,现在在考虑抓取回来的原始网页存储问题 找了一些资料,也参考了天网的存储格式,现在头绪没有理清楚,该以怎样的结构存储对后期的再加工和查询等提高效率,希望做搜索的朋友一起讨论,哪里不对请指教...
2009-09-13 23:25:37 150
垂直搜索爬虫设计疑问?
由于我想开发一个垂直搜索引擎, 所以最近在关注垂直搜索引擎中的爬虫是如何爬取信息的? 现在我有4个疑问,希望能有人给点意见。 1、如何找到我们所需要的领域资源? 显然我们不可能象google,百度那样的在整个web上爬取网页,那样也不能搜集全我们要的领域资源,更新也太慢。就这个问题曾和两个做过垂直搜索的科技人员和老师聊过,他们的方法都是事先搜集全有关领域资源的网站,然后再定向爬取这...
2009-03-18 12:24:38 142
空空如也
适合做开源项目的网站程序
2009-11-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人