【腾讯TMQ】如何轻松爬取网页数据

最新推荐文章于 2024-07-24 09:56:07 发布

腾讯移动品质中心TMQ

最新推荐文章于 2024-07-24 09:56:07 发布

阅读量2.4k

点赞数

文章标签：腾讯爬虫

本文链接：https://blog.csdn.net/TMQ1225/article/details/71125089

版权

本文介绍了如何使用Python进行网页爬虫，包括静态页面、POST表单、HTTP基本接入认证和JavaScript动态页面的爬取方法。通过示例和知识点讲解，帮助读者掌握不同类型的网页抓取技巧，特别提到了selenium库在处理JavaScript动态页面中的应用。

摘要由CSDN通过智能技术生成

一、引言

在实际工作中，难免会遇到从网页爬取数据信息的需求，如：从微软官网上爬取最新发布的系统版本。很明显这是个网页爬虫的工作，所谓网页爬虫，就是需要模拟浏览器，向网络服务器发送请求以便将网络资源从网络流中读取出来，保存到本地，并对这些信息做些简单提取，将我们要的信息分离提取出来。

在做网页爬虫工作时会发现并不是所有网站都是一样，比如有些网址就是一个静态页面、有些需要登录后才能获取到关键信息等等。此外，python简单而又强大，又有不少第三方库可以让我们轻松拿到浏览器中所看到的内容。因而，本文将根据网站特性进行分类介绍几种使用python完成网页爬虫的方法。

二、静态页面

在做爬虫工作时，什么类型的网站最容易爬取数据信息呢？不需要登录等处理，直接用Get方法请求URL即可从服务器获取到返回数据，如我们访问一些博客文章，一个Get请求就可以拿到博客文章里的内容。下面将举例介绍如何爬虫这种类型页面内容该如何爬取。

示例

1、需求说明：假设我们需要及时感知到电脑管家官网上相关产品下载链接的变更，这就要求我们写个自动化程序从官网上爬取到电脑管家的下载链接。

2、分析过程：在浏览器中打开https://guanjia.qq.com，按下F12, 查看网络请求，内容如下图。这里只有一个Get请求，没有登录，也不涉及加密过程。此外，点击Elements，可以很容易的从源码中找到下载链接。

图1

3、解决方案： requests是python的第三方库，可以发送网络请求数据并获取服务器返回的源码。使用requests库获取到html文件，然后利用正则等字符串解析手段或者BeautifulSoup库（第三方库）完成信息提取。下面代码展示的是利用requests库和BeautifulSoup库完成信息提取。

图2 源码截图

知识点

1、有些网络服务器反感爬虫，会对请求头做个简单判别，直接拒绝那些明显是由自动化程序发起的请求。就例如图2中的代码，python使用的默认请求头User-Agent值为Python-urllib/3.4，而浏览器访问时User-Agent值为：Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/