通用网页数据采集器
此采集器原本是给一个公司定制的产品,后来对方不要了,所以此采集器没有完工。也不是很完善。不完善的地方主要体现在:
1. 没有做定时执行模块
2. 没有做数据入库模块
本采集器采用sqlite作为本地数据库存放一些本地信息和配置信息。使用模拟的HTTP请求获取数据。运行效果截图:
添加数据源(1)
注意:
1. 表名可以随便填写,没有的情况下创建,有的情况下先删除,再创建,记得备份数据
2. 参数可以按照get和post类型分别设置
3. 类型可以设置时间,数字,集合。
4. 第二步之前先点击测试,测试数据是否满足要求
添加数据源(2)
我们得先获取更新时间了,正则表达式不会的先去学习学习
文本预览一下,看看应该怎么写正则表达式。
添加数据源(3)
第三步的主要作用是查找出数据源的最小单位代码
添加数据源(4)
填写解析的规则
第四步完成以后请记得点击提交,保存配置数据
执行代码未写完,有空完善。
再看看其他辅助功能
1. 日志管理
本地日志
数据库日志
邮件系统设置
数据库设置
请注意,这个数据库设置是设置采集后的目标数据入库的数据库类型
日志管理
程序基本就是一个这样子。
总结一下这个项目。
1. 实现了模拟的http请求获取数据,网络上关于12306写得比较好的都是采用这个技术。(我也有个订票软件,呵呵,有空开放出来)
2. 实现了post网页与get网页混合管理,实现了多参数组合,自动分页。
3. 本地数据采用了sqlite数据库(方便无需安装)
4. 实现了日志的本地管理和数据库管理
5. 对采集数据实现了特殊字段数据处理和一般字段数据处理
6. 实现了自动建表过程
7. 对数据采集,入库过程全程实现了邮件监控(使用139邮箱可以变成短信监控)
8. 计划实现定时段订频率执行,当然一定是多线程的。
9. 计划实现历史数据补录
版权bobui所有,可以随意转载,请保留版权信息