准备写一个通用的采集程序

为什么要干这个事情

工作中,多次碰到要抓取一些网页,

这些年来,写了很多这种零散的代码,苦于没有形成一个稳定的程序,

多次做重复工作,没有意义,

现在终于闲下来了(都是经济危机惹的祸),

是时候把这些代码提炼一下了,

想做一个通用的采集程序,或者叫爬虫程序,真是不容易,工作量还是相当大的;

 

设计目标和技术难点

简单的想一想,主要包括一下几个方面的难点:

1. 爬行目标定义,定义入口,爬行规则

2. 爬虫输出

    a. 网页文本输出

    b. 网页数据输出,即将网页文本解析,输出结构化的数据,供后序程序处理(是个难点)

3. 多线程采集方式

4. 分布式采集方式:多台主机同时采集一个网站,任务在不同主机之间调度

5. 对需要登陆的网站,需要模拟Cookie(Session)

6. 对采集过的网站保持更新(也是个难点)

 

开发环境

 

1. 开发环境和执行环境都是windows

2. 采用oracle数据库

3. 采用Delphi开发(Delphi限制了要用windows环境执行,kylix不考虑了)

 

真的要下决心做了,要考虑的事情还真不少,过两天写一个概要分析,把思路好好整理下;

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值