python爬虫学习第三十二天

最新推荐文章于 2024-08-16 18:56:34 发布

可惜没有如果

最新推荐文章于 2024-08-16 18:56:34 发布

阅读量215

点赞数

分类专栏：学习笔记文章标签： python

本文链接：https://blog.csdn.net/qq_34194478/article/details/77623191

版权

学习笔记专栏收录该内容

45 篇文章 0 订阅

订阅专栏

今天的内容：穿越网页表单与登录窗口进行采集

到目前为止，我们示例中的网络爬虫在和大多数网站的服务器进行数据交互时，都是用HTTP 协议的 GET 方法去请求信息。这一章，我们将重点介绍 POST 方法，即把信息推送给网络服务器进行存储和分析
页面表单基本上可以看成是一种用户提交 POST 请求的方式，且这种请求方式是服务器能够理解和使用的。就像网站的 URL 链接可以帮助用户发送 GET 请求一样，HTML 表单可以帮助用户发出 POST 请求。当然，我们也可以用一点儿代码来自己创建这些请求，然后通过网络爬虫把它们提交给服务器

今天用到的模块和知识：
request库

Requests 库是一个擅长处理那些复杂的 HTTP 请求、cookie、header（响应头和请求头）等内容的 Python 第三方库，之前的学习内容其实有涉及（十天左右的时候）

使用代码提交表单前最好去看一下网站的robots.txt文件，许多网站是不允许程爬虫提交表单的。

我所用的演示网页的表单源码如下：

<form method="post" action="processing.php"> 
First name: <input type="text" name="firstname"><br> 
Last name: <input type="text" name="lastname"><br> 
<input type="submit" value="Submit"> </form>

特别注意firstname与lastname这两个字段。字段的名称决定了表单被确认后要被传送到服务器上的变量名称。如果你想模拟表单提交数据的行为，你就需要保证你的变量名称与字段名称是一一对应的。

练习简单post请求

import requests

params = {"firstname":"skasd","lastname":"ijsh"}
r = requests.post("http://pythonscraping.com/files/processing.php",data=params)
print(r.text)

作为表单提交者，我们不用过多关心表单的html语言，我们终端只放在两个地方：表单的字段以及表单的action属性，前者是你要提交的内容，后者是post请求的接受者

除了提交表单，爬虫也可以模拟上传文件，虽然不常用。
比如向下边这样的表单：

<form action="processing2.php" method="post" enctype="multipart/form-data"> 
Submit a jpg, png, or gif: <input type="file" name="image"><br> <input type="submit" value="Upload File"> 
</form>

模拟提交这个表单只需要几行：

import requests
params = {"filename":open("test.txt")}
r = requests.post("http://pythonscraping.com/pages/processing2.php",files=params)
print(r.text)

练习跟踪cookies

import requests

data = {"username":"egdxc","password":"password"}
r = requests.post("http://pythonscraping.com/pages/cookies/welcome.php",data = data)
print("cookies is:")
print(r.cookies.get_dict())
r1 = requests.get("http://pythonscraping.com/pages/cookies/welcome.php",cookies=r.cookies)
print(r1.text)

如果你面对的网站比较复杂，它经常暗自调整cookie，或者如果你从一开始就完全不想要用cookie，这时候Requests 库的 session 函数可以完美地解决这些问题

会话（session）对象（调用 requests.Session() 获取）会持续跟踪会话信息，像 cookie、header，甚至包括运行 HTTP 协议的信息，比如 HTTPAdapter（为 HTTP 和 HTTPS 的链接会话提供统一接口）。

import requests


data = {"username":"egdxc","password":"password"}
session = requests.Session()
r = session.post("http://pythonscraping.com/pages/cookies/welcome.php",data = data)
print("cookies is :")
print(r.cookies.get_dict())
r = session.get("http://pythonscraping.com/pages/cookies/welcome.php")
print(r.text)