Python数据采集与处理之网页爬取

本文介绍了Python使用requests模块进行网页爬取的基本操作,包括get()和post()方法的参数解释,以及如何获取响应内容。此外,还详细讲述了如何使用正则表达式从网页源代码中筛选数据,以国防科技大学2016年分数线为例,展示了从HTML表格中提取省份及其最高分、最低分和平均分的过程。
摘要由CSDN通过智能技术生成

第1关:request模块的基本使用

任务描述
本关我们将使用 Python 程序,实现通过网页的 url,获得服务器返回的超文本文件,并保存到 txt 文件的功能。

相关知识
下面通过文字进一步详细描述获取网页并保存至本地的实现方法。

访问 url 的get()和post()方法
当我们想要在浏览器中打开一个网页时,需要在浏览器的地址栏中输入该网页的 url,例如在地址栏中输入百度搜索网站的首页 url:
https://www.baidu.com/

点击确认后,浏览器将向服务器发出一个对该网页的请求;服务器端收到请求后,会返回该网页的超文本文件,浏览器收到服务器端发来的网页超文本文件后,对其进行解析,然后在窗口中显示该超文本文件对应的网页。如图 1 所示。

Python 提供了 requests 模块用来处理网页的 url,主要有 get() 和 post() 两个方法,分别对应网页的 Get 请求和 Post 请求。get() 和 post() 方法有以下几个参数:

url:指定请求 URL;

params:字典类型,指定请求参数,GET 请求时使用;

data: 字典类型,指定表单信息,常用于发

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ssaty.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值