之前和之后的网络爬虫在和 Web 服务器进行数据交互时,基本都是用 HTTP协议的 GET 方法去请求信息。POST方法,即把信息推送到 Web服务器进行存储和分析。就像网站的链接标记可以帮助用户发出 GET 请求一样,HTML 表单可以帮助用户发出 POST 请求。
1.Python Requests库
Requests 库就是一个擅长处理复杂的 HTTP 请求、cookie、header(响应头和请求头)等内容的 Python 第三方库。
和任何 Python 第三方库一样,Requests 库也可以用其他第三方 Python 库管理器(比如 pip)安装,或者直接下载源代码安装。
2.提交一个基本表单
大多数网页表单都是由一些 HTML 字段、一个提交按钮和一个进行表单处理的操作页面构成的。虽然这些 HTML 字段通常由文字内容构成,但是也可以实现文件上传或包含其他非文字内容。
大多数主流网站都会在它们的 robots.txt 文件里注明禁止爬虫接入登录表单(抓取这类表单可能需要承担相关法律责任)
pythonscraping.com网站为书本作者为读者学习爬虫创建的。其中一个简单的表单文件如下:
<form method="post" action="processing.php">
First name: <input type="text" name="firstname"><br>
Last name: <input type="text" name="lastname"><br>
<input type="submit" value="Submit">