基于http模拟请求的网页获取通用采集器

通用网页数据采集器

 

此采集器原本是给一个公司定制的产品,后来对方不要了,所以此采集器没有完工。也不是很完善。不完善的地方主要体现在:

1.      没有做定时执行模块

2.      没有做数据入库模块

 

本采集器采用sqlite作为本地数据库存放一些本地信息和配置信息。使用模拟的HTTP请求获取数据。运行效果截图:

 

添加数据源(1)


         注意:

1.      表名可以随便填写,没有的情况下创建,有的情况下先删除,再创建,记得备份数据

2.      参数可以按照get和post类型分别设置

3.      类型可以设置时间,数字,集合。

4.      第二步之前先点击测试,测试数据是否满足要求

添加数据源(2)


我们得先获取更新时间了,正则表达式不会的先去学习学习

文本预览一下,看看应该怎么写正则表达式。

 

添加数据源(3)


第三步的主要作用是查找出数据源的最小单位代码

 

添加数据源(4)


填写解析的规则

第四步完成以后请记得点击提交,保存配置数据

执行代码未写完,有空完善。

 

再看看其他辅助功能

1.      日志管理

本地日志


数据库日志


邮件系统设置


数据库设置


请注意,这个数据库设置是设置采集后的目标数据入库的数据库类型

 

日志管理

 

程序基本就是一个这样子。

 

总结一下这个项目。

1.      实现了模拟的http请求获取数据,网络上关于12306写得比较好的都是采用这个技术。(我也有个订票软件,呵呵,有空开放出来)

2.      实现了post网页与get网页混合管理,实现了多参数组合,自动分页。

3.      本地数据采用了sqlite数据库(方便无需安装)

4.      实现了日志的本地管理和数据库管理

5.      对采集数据实现了特殊字段数据处理和一般字段数据处理

6.      实现了自动建表过程

7.      对数据采集,入库过程全程实现了邮件监控(使用139邮箱可以变成短信监控)

8.      计划实现定时段订频率执行,当然一定是多线程的。

9.      计划实现历史数据补录

 

 

 

版权bobui所有,可以随意转载,请保留版权信息

 


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bobui

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值