10.穿越网页表单与登录窗口进行抓取

本文介绍了如何使用Python的Requests库处理HTML表单,包括GET和POST请求、模拟表单提交、文件上传、登录及处理cookies,以及应对各种复杂表单场景。重点关注了Requests库的使用方法和表单字段的处理,同时提到了网站的安全防护措施。
摘要由CSDN通过智能技术生成

之前和之后的网络爬虫在和 Web 服务器进行数据交互时,基本都是用 HTTP协议的 GET 方法去请求信息。POST方法,即把信息推送到 Web服务器进行存储和分析。就像网站的链接标记可以帮助用户发出 GET 请求一样,HTML 表单可以帮助用户发出 POST 请求。
1.Python Requests库
Requests 库就是一个擅长处理复杂的 HTTP 请求、cookie、header(响应头和请求头)等内容的 Python 第三方库。
和任何 Python 第三方库一样,Requests 库也可以用其他第三方 Python 库管理器(比如 pip)安装,或者直接下载源代码安装。
2.提交一个基本表单
大多数网页表单都是由一些 HTML 字段、一个提交按钮和一个进行表单处理的操作页面构成的。虽然这些 HTML 字段通常由文字内容构成,但是也可以实现文件上传或包含其他非文字内容。
大多数主流网站都会在它们的 robots.txt 文件里注明禁止爬虫接入登录表单(抓取这类表单可能需要承担相关法律责任)
pythonscraping.com网站为书本作者为读者学习爬虫创建的。其中一个简单的表单文件如下:

<form method="post" action="processing.php">
First name: <input type="text" name="firstname"><br>
Last name: <input type="text" name="lastname"><br>
<input type="submit" value="Submit">
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值