网络数据获取及查询系统目标

    最近想把以前设计的网络数据获取及查询系统重新进行整理,明确新目标,以形成新的产品,看是否有新的商机。

    以前的系统功能如下:

    1、实现了一个网络数据的抓取配置程序:

  • 支持用户名、密码登陆;还不支持验证码图片识别;
  • 支持数字证书登陆;
  • 支持表单自动提交;
  • 支持表单数据自动填写;
  • 支持流程配置:支持一系列动作,如:直接跳转、表单赋值、 点击跳转、表格定位解析、网页取值、javascript函数执行、条件返回、表格循环解析、表单取值、点击操作和div循环解析;
  • 实现基于正则表达式的网页数据解析;
  • 结果可配置;获取的结果可以动态、可视配置,可加入模板
  • 流程可配置;
  • 实现多页数据获取,自动获取页码
  • 支持记录唯一索引,避免相同信息重复入库   

    2、已实现的应用:

  • 淘宝店铺数据获取;输入关键字,可以获取所有符合条件淘宝店的数据,包括店主名、店铺名称、主营、所在地、等级、宝贝数量等信息;
  • 淘宝评价数据获取;对指定店面列表,下载最新的评价数据,包括买家、价格、宝贝名称、评价等数据,并可进行简单的数据分析;
  • 基于网络信息的短信查询系统;通过短信查询互联网上的数据;如:手机归属地、IP地址所在地、天气预报、火车时刻表、航班时刻表、股票信息等数据。

    3、计划实现的目标:

 

  • 实现图片、文件下载
  • 实现验证码识别,能够自动登录有识别码的网站
  • 实现DIV的循环解析,已实现了机遇DIV ID属性的DIV数据循环解析,待实现只有DIV CLASS属性的数据信息
  • 实现“详细信息”获取;譬如获取新闻内容(包括带HTML格式的和不带HTML格式的);
  • 实现定时抽取
  • 实现一个流程多个结果数据合并

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值