Chrome插件 WEB 网页数据采集和爬虫程序_chrome插件爬虫开发(1)

最新推荐文章于 2024-09-20 19:43:42 发布

m0_60607245

最新推荐文章于 2024-09-20 19:43:42 发布

阅读量1.7k

点赞数 26

分类专栏：程序员文章标签：前端 chrome 爬虫

本文链接：https://blog.csdn.net/m0_60607245/article/details/138286768

版权

147 篇文章 0 订阅

订阅专栏

21世纪是信息时代，信息就是财富。数据（信息）采集是指从信息使用者的需要出发,通过各种渠道和形式获取相关信息的过程.。采集及时、准确、全面的信息是信息管理的基本前提，同时也是管理者决策的参考依据。

写论文时，从统计局网站粘贴几个数值；不定时将公示结果转存到Excel；批量把在线的高清美图下载到本地。这些都是 WEB 数据采集的日常例子。

信息采集最简单最原始的方式，就是人力直接操作，CTRL+C、CTRL+V一套组合拳下来，数据就到碗里来了👏🏻。不过，这数据量一旦上来，铁打的人都吃不消。于是乎，人们想到了用电脑来代替人工，爬虫程序就这样诞生了。

在此之前，我们应该先简单了解下网页内容渲染机制。

上图是 WEB 页面交互的简单模型，不谈及安全机制、浏览器兼容等😄。

所谓的自动化程序，就是用机器大批量地发起请求，拿到响应后再做处理。专业术语叫做网页爬虫或者网页机器人。

此方案需要我们至少熟悉一门编程语言（Python、Node.js、Java等），自行编写代码或者借助优秀的开源爬虫框架，实现数据获取。某些场景，还需要通过抓包分析目标网站的参数规则，然后通过组合式请求方能达到目的。

这里罗列下我用过或收藏且还在不断更新维护的框架：

名称	开发语言	简介
Scrapy	Python	A fast high-level web crawling & scraping framework for Python.
Pyspider	Python	A Powerful Spider(Web Crawler) System in Python.
Nutch	Java	一种高度可扩展、可伸缩的开源 Web 爬虫软件项目。功能强大，支持 Hadoop 集群内运行
webmagic	Java	一个简单灵活的Java爬虫框架。基于WebMagic，你可以快速开发出一个高效、易维护的爬虫。真的非常简单😄
Spiderman2	Java	开源Web数据抽取工具，我没实际使用过
node-crawler	Node.js	Web Crawler/Spider for NodeJS + server-side jQuery 😉

首先访问目标网站，按需进行登录，然后按下键盘 F12（或者 Ctrl+Shift+I）进入开发者工具，可以在控制台中写或贴入 JS 脚本，回车收尾😎。

这是我常用的一种方式，用户验证脚本跟少规模作业。

WEB 自动化测试工具，是指通过程序代替人工完成验证 WEB 功能的过程。当然，也能利用它来抓取数据。这类工具通过驱动程序（webdriver、DevTools Protocol），驱使浏览器执行既定的动作/脚本。

Selenium：老牌大哥，我最开始接触的自动化测试工具，支持 Chrome、Edge、Firefox、IE、Safari 等浏览器，对开发语言支持也很广：Java、Python、C#、Ruby、JavaScript
Puppeteer： Chrome 开发团队在 2017 年发布的一个 Node.js 包，用来模拟 Chrome 浏览器的运行。主打对 Chrome 的良好支持，社区有针对 Java、Python 版本。
Playwright：微软大厂出品，浏览器支持 Chrome、Edge、Firefox、Safari，官方提供 Java、Python、Node.js、C# 编程语言的 SDK。