vba数据抓取屏幕数据_如何使用屏幕抓取工具从Web提取数据

vba数据抓取屏幕数据

完美的Internet可以按照客户选择的格式(无论是CSV,XML,JSON等)向客户提供数据。真正的Internet有时会通过提供数据来取笑,但通常以HTML或PDF文档格式提供,而这些格式旨在显示数据比数据交换。 因此,昨天的屏幕抓取 (提取显示的数据并将其转换为请求的格式)在今天仍然很重要。

Perl具有出色的屏幕抓取工具,其中包括以下Scraping程序中描述的HTML::TableExtract包。

刮刮程序概述

屏幕抓取程序有两个主要部分,它们组成如下:

  • 文件data.html包含要抓取的数据。 此示例中的数据源自正在装修的大学场所,该数据解决了与大学学位相关的收入是否证明该学位成本合理的问题。 数据包括中位数收入,百分位数,以及其他有关研究领域的信息,例如计算机,工程学和文科。 要运行Scraping程序,data.html文件应托管在Web服务器上(在我的情况下是本地Nginx服务器)。 一个独立的Perl Web服务器,例如HTTP::Server::PSGIHTTP::Server::Simple也可以。
  • 文件scrape.pl包含Scraping程序,该程序使用Plack/PSGI软件包(尤其是Plack Web服务器)中的功能。 从命令行启动Scraping程序(如下所述)。 用户在浏览器中输入Plack服务器的URL( localhost:5000/ ),将发生以下情况:
    • 浏览器连接到Plack服务器( HTTP::Server::PSGI的实例),并向Scraping程序发出GET请求。 URL末尾的单斜杠( / )标识此程序。 (即使用户没有这样做,现代的浏览器也会添加斜杠。)
    • 然后,Scraping程序对data.html文档发出GET请求。 如果请求成功,则应用程序使用HTML::TableExtract包从文档中提取相关数据,将提取的数据保存到文件中,并采取一些基本的统计措施来表示处理提取的数据。 如下所示HTML报告将返回到用户的浏览器。
HTML report generated by the Scraping program

图1:Scraping程序的最终报告

从用户浏览器到Plack服务器,再到托管data.html文档的服务器(例如Nginx)的请求流量可以描述如下:


   
   
   
              GET localhost:5000/             GET localhost:80/data.html
user's browser------------------->Plack server-------------------------->Nginx

最后一步仅涉及Plack服务器和用户的浏览器:


   
   
   
             reportFinal.html
Plack server------------------>user's browser

上面的图1显示了最终报告文件。

刮刮程序详细

可从我的网站以包含自述文件的ZIP文件的形式获得源代码和数据文件(data.html)。 以下是各部分的简要摘要,下面将进行说明:


   
   
   
data.html             ## data source to be hosted by a web server
scrape.pl             ## main source code, run with the plackup utility (see below)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一、软件简介 FastStone Capture 是一款出色的屏幕捕捉(截图)软件,它集图像捕捉、浏览、编辑、视频录制等功能于一身,功能完善、使用方便,值得推荐! 软件提供多种捕捉方式(如:活动窗口、指定窗口/对象、矩形区域、手绘区域、整个屏幕、滚动窗口等),提供屏幕录像机、放大镜、拾取颜色、标尺等辅助功能,支持快捷键操作 对于捕捉到的图像,软件提供了多种处理方式,如:在编辑器打开;存入剪贴板或文件;发送到打印机、邮件、WORD、Powerpoint 甚至是网络 FTP 等。用户还可以通过文件名称模板定制文件名以自动保存捕捉内容,支持BMP、GIF、JPG、PNG、TIF、PDF等文件格式,输出文件夹位置也可以自行设定。 软件内置功能完善的图像编辑器,支持几乎所有主流图片格式,除提供缩放、旋转、剪切、格式转换、调整大小等基本功能外,还可向图像中加入标题、边框和水印、文本、线条、图形等内容,并可调整图像颜色,进行多种特效处理。 二、版本特色 本版本基于官方英文原版汉化,集成注册文件,并优化了部分设置。相对于其他版本,具有更新及时、汉化彻底、使用方便等特点。希望大家喜欢! 三 、特别声明: 1、本软件相关资源收集自互联网,版权归其开发厂商及作者所有。 2、本软件仅限于个人学习交流,请勿用于任何形式商业用途。 3、您必须自行承担使用过程所有可能引起的后果及损失。 4、使用过程中若有意见或建议,请及时反馈和指正。 软件名称:FastStone Capture 产品版本:8.4 官方主页:http://www.faststone.org 软件汉化:飞扬时空 博客地址:http://iyoung.blog.163.com/blog/static/16678880720106161648206/ 版本性质:汉化版 更新日期:2016年1月16日
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值