自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

安静的小丑

我的家

  • 博客(4)
  • 问答 (1)
  • 收藏
  • 关注

垂直搜索平台初步构想

1.下载模块 * 采用HTTP1.1协议,支持HTTPS等常用协议。 * 编码问题: 支持自动识别,遇到得不到编码的网页采用分析网页的方式判断编码。 * 静态数据: 如新闻、博客等数据,直接下载生成XML存储到持久层以便下一环处理。 * 动态数据: 要支持登录验证,以及支持Cookie,要能理解简单的js等。 * 更新频率: 每次下载的数据和上次数据作一次对比(把上次的内容取M...

2009-12-15 03:20:07 88

原创 Spider最基本功能要求

一、一个大容量的页面文件容器。 1.1 该容器能保存上千万的HTML、图片、视频,但又不能产生过多的小文件。 1.2 该容器能通过URL快速存取文件(类似于HashMap) 1.3 该容器支持压缩存放。 1.4 该容器将页面的概要信息和内容分开存放。 1.5 该容器的存取性能不随存取文件数量的增长有大的变化。 二、一个高效的HTTP下载器 2.1 完全支持HTTP1...

2009-12-15 03:14:16 294

对抓取回来的海量原始网页存储结构设计

最近一直在搞爬虫相关的工作,现在在考虑抓取回来的原始网页存储问题 找了一些资料,也参考了天网的存储格式,现在头绪没有理清楚,该以怎样的结构存储对后期的再加工和查询等提高效率,希望做搜索的朋友一起讨论,哪里不对请指教...

2009-09-13 23:25:37 140

垂直搜索爬虫设计疑问?

由于我想开发一个垂直搜索引擎, 所以最近在关注垂直搜索引擎中的爬虫是如何爬取信息的? 现在我有4个疑问,希望能有人给点意见。 1、如何找到我们所需要的领域资源? 显然我们不可能象google,百度那样的在整个web上爬取网页,那样也不能搜集全我们要的领域资源,更新也太慢。就这个问题曾和两个做过垂直搜索的科技人员和老师聊过,他们的方法都是事先搜集全有关领域资源的网站,然后再定向爬取这...

2009-03-18 12:24:38 129

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除