安静的小丑-CSDN博客

垂直搜索平台初步构想

1.下载模块 * 采用HTTP1.1协议，支持HTTPS等常用协议。 * 编码问题: 支持自动识别，遇到得不到编码的网页采用分析网页的方式判断编码。 * 静态数据: 如新闻、博客等数据，直接下载生成XML存储到持久层以便下一环处理。 * 动态数据: 要支持登录验证，以及支持Cookie，要能理解简单的js等。 * 更新频率: 每次下载的数据和上次数据作一次对比(把上次的内容取M...

2009-12-15 03:20:07 102

原创 Spider最基本功能要求

一、一个大容量的页面文件容器。 1.1 该容器能保存上千万的HTML、图片、视频，但又不能产生过多的小文件。 1.2 该容器能通过URL快速存取文件(类似于HashMap) 1.3 该容器支持压缩存放。 1.4 该容器将页面的概要信息和内容分开存放。 1.5 该容器的存取性能不随存取文件数量的增长有大的变化。二、一个高效的HTTP下载器 2.1 完全支持HTTP1...

2009-12-15 03:14:16 312

对抓取回来的海量原始网页存储结构设计

最近一直在搞爬虫相关的工作，现在在考虑抓取回来的原始网页存储问题找了一些资料，也参考了天网的存储格式，现在头绪没有理清楚，该以怎样的结构存储对后期的再加工和查询等提高效率，希望做搜索的朋友一起讨论，哪里不对请指教...

2009-09-13 23:25:37 150

垂直搜索爬虫设计疑问？

由于我想开发一个垂直搜索引擎，所以最近在关注垂直搜索引擎中的爬虫是如何爬取信息的？现在我有4个疑问，希望能有人给点意见。 1、如何找到我们所需要的领域资源？显然我们不可能象google，百度那样的在整个web上爬取网页，那样也不能搜集全我们要的领域资源，更新也太慢。就这个问题曾和两个做过垂直搜索的科技人员和老师聊过，他们的方法都是事先搜集全有关领域资源的网站，然后再定向爬取这...

2009-03-18 12:24:38 142

空空如也

适合做开源项目的网站程序

2009-11-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人