《Web Scraper网页爬虫教程》 是我以谷歌浏览器插件Web Scraper为爬虫工具,理论与实战结合的教程。
如果大家有爬虫需求,欢迎大家公众号联系我,我可以免费帮忙爬取数据。
关于我的更多学习笔记,欢迎您关注“武汉AI算法研习”公众号,公众号浏览此系列教程视觉效果更佳!
Web Scraper爬虫工具是一个基于谷歌浏览器的插件,使用Web Scraper能够简单快速的爬取任意网站数据而且不受网站的反爬虫机制影响。相比较Python等语言实现的爬虫工具,WebScraper有先天优势。
演示demo,简单有没有?
搞科研做实验最痛心的是什么?
没数据,数据不够
不会Python、不会Java不会写爬虫工具怎么办?
找:Web Scraper!
互联网上存在海量的数据,各式各样的数据每天展现在我们面前,同时众多的金融、医学和计算机等学科的研究课题,都需要获取众多的数据作为样本进行科学分析,传统的人工采集操作根本上很难胜任数据采集,即便是能够收集也需要耗费众多的时间成本。本教程的目的就是为了让有采集数据需求的人能够在短短的一小时内熟练使用堪称“神器”的Web Scraper插件。
首先让我们了解一下简单的爬虫原理,所谓“磨刀不误砍柴工”,对于原理的了解能够帮助我们的使用过程事倍功半!
「爬取对象」
网页作为展示数据的平台,我们可以通过浏览器窗口进行浏览。从服务器数据库到浏览器窗口的展示,这中间经过了复杂的处理过程。存储在服务器数据库的数据资料,一般是以某种编码形式存储,如果这个时候我们查看数据,看到的就是这样或者那样的纯文字类型。之后数据传输到浏览器,由浏览器将“数据信息”加载到已经由设计师弄好的“网页模板”中,最终得到我们通过浏览器看到的一切。
我们看到的金融网站
我们看到的新闻网站
我们看到的博客
「网页“层”的理解」
各式各样的网页包含各式各样的数据。网页组织这些数据是包含在不同的“层”中(详细内容可以对html标签进行学习),当然这些层我们是无法都直观看见的。
网页设计经过长时间的发展,直到目前我们通过标准的html标签语言对网页页面进行设计。在这一套国际通用规则之下,设计过程就是一层一层的设计页面元素,让不同的内容更加和谐的组合在一起,虽然不同的网站设计风格不一样,但是每个网页都是类似一个“金字塔”的结构,比如下面的网页中:
第一层:类似一个表格
第二层:标题栏和内容栏(类似Excel)
第三层:每一行的数据
第四层:每个单元格
第五层:文本
「Web Scraper分层抓取页面元素」
Web Scraper作为自动化爬虫工具,其爬取目标是页面的数据,但是在爬取数据之前,我们需要定义一个“过程",这个过程包括“动作”(模拟鼠标点击操作)和“页面元素”(定义待爬取页面元素)。
很懵的感觉
实践是检验真理唯一标准,爬取过程就到这了,基本的原理储备已经足够以对Web Scraper进行学习!
从下一节开始我们正式进入Web Scraper 的学习。
下节预告《【Web Scraper教程02】安装Web Scraper插件》