如何用 Python 爬取需要登录的网站？

最新推荐文章于 2024-08-08 16:43:27 发布

Python开发者

最新推荐文章于 2024-08-08 16:43:27 发布

阅读量3.6w

点赞数 12

本文链接：https://blog.csdn.net/iodjSVf8U1J7KYc/article/details/78940671

版权

(点击上方蓝字，快速关注我们)

英文：Tzahi Vidas 编译：伯乐在线 - ebigear

http://python.jobbole.com/83588/

最近我必须执行一项从一个需要登录的网站上爬取一些网页的操作。它没有我想象中那么简单，因此我决定为它写一个辅助教程。

在本教程中，我们将从我们的bitbucket账户中爬取一个项目列表。

教程中的代码可以从我的 Github 中找到。

我们将会按照以下步骤进行：

提取登录需要的详细信息
执行站点登录
爬取所需要的数据

在本教程中，我使用了以下包（可以在 requirements.txt 中找到）：

requests

lxml

步骤一：研究该网站

打开登录页面

进入以下页面 “bitbucket.org/account/signin”。你会看到如下图所示的页面（执行注销，以防你已经登录）

仔细研究那些我们需要提取的详细信息，以供登录之用

在这一部分，我们会创建一个字典来保存执行登录的详细信息：

1. 右击 “Username or email” 字段，选择“查看元素”。我们将使用 “name” 属性为 “username” 的输入框的值。“username”将会是 key 值，我们的用户名/电子邮箱就是对应的 value 值（在其他的网站上这些 key 值可能是 “email”，“ user_name”，“ login”，等等）。

2. 右击 “Password” 字段，选择“查看元素”。在脚本中我们需要使用 “name” 属性为 “password” 的输入框的值。“password” 将是字典的 key 值，我们输入的密码将是对应的 value 值（在其他网站key值可能是 “userpassword”，“loginpassword”，“pwd”，等等）。

3. 在源代码页面中，查找一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。“csrfmiddlewaretoken” 将是 key 值，而对应的 value 值将是这个隐藏的输入值（在其他网站上这个 value 值可能是一个名为 “csrftoken”，“ authenticationtoken” 的隐藏输入值）。列如：“Vy00PE3Ra6aISwKBrPn72SFml00IcUV8”。