python实现leetcode_Python爬取 LeetCode 题目及 AC 代码

最新推荐文章于 2024-06-25 09:41:39 发布

eternal?

最新推荐文章于 2024-06-25 09:41:39 发布

阅读量1k

点赞数

文章标签： python实现leetcode

前言

最近在刷算法题，想要整理一下做个总结，发现每道题都要复制粘贴题目和解法实在太浪费时间了。本着解放劳动力的思维研究了下 LeetCode 爬虫，把题目和代码爬取自动生成 Markdown 文档。我已经把项目提交到了 github 上了，欢迎大家 star、fork。

在这里贴的代码为了方便理解，在源码上做了些改动。

模拟登陆 LeetCdoe

页面分析

要做一个爬虫，先得了解页面逻辑。如果有现成的接口可以直接调用，获取到想要的数据，就模拟调用接口得到数据。

在这里就以模拟登陆 LeetCode 为例。首先我们用 Chrome 打开登陆页面，F12 打开调试功能，分析 LeetCode 登陆账号逻辑。

填写账号密码，点击登陆，分析账号信息是如何提交上去的。(注：由于登陆成功后页面会默认跳转，在 Chrome 中会把之前页面的请求数据历史记录清空，需要勾选 network 下的 Preserve log，保持历史记录)。

通过查找记录可以发现通过 https://leetcode.com/accounts/login 接口提交了账号信息，这是常见的通过 RESTful 提交数据实现登陆方式。所以我们接下来就是模拟浏览器提交表单数据到这一接口中。

登陆表单

表单中共存放了四对数据，我们需要一一伪造出来。其中有一个名为 csrfmiddlewaretoken 的数据，这个是由 LeetCode 生成放到 cookie 中的。在模拟登陆之前，需要通过访问 LeetCode 主页，取得该 Cookie 值而后填充到我们的表单中。

由于需要维持登陆状态，这里是用了 requests 中的会话对象 Session，下面是 Requests 官方文档中关于 Session 的介绍。

会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie，期间使用 urllib3 的 connection pooling 功能。所以如果你向同一主机发送多个请求，底层的 TCP 连接将会被重用，从而带来显著的性能提升。 (参见 HTTP persistent connection).

伪造完表单数据，还需要伪造表头，部分反爬虫逻辑就是通过表头中的数据来分辨爬虫，如 User-Agent 中记录了你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。Requests 中默认的 User-Agent 是 Python-requests/*.*，如果不伪造很可能会被反爬机制拦截。

这里我们就照着自己计算机中的参数进行伪造就可以了，请求 header可以在 Request Header中找到(注：不一定要完全，只选取其中比较特殊的字段即可)

伪造完数据，提交表单即可。由于登陆成功会自动跳转，需要在 post 方法中设置 allow_redirects 为 Fasle 禁止跳转，避免不必要的跳转。

代码

import requests,json

from requests_toolbelt import MultipartEncoder

session = requests.Session()

user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'

def login(username, password):

url = 'https://leetcode.com'

cookies = session.get(url).cookies

for cookie in cookies:

if cookie.name == 'csrftoken':

csrftoken = cookie.value

url = "https://leetcode.com/accounts/login"

params_data = {

'csrfmiddlewaretoken': csrftoken,

'login': username,

'password':password,

'next': 'problems'

}

headers = {'User-Agent': user_agent, 'Connection': 'keep-alive', 'Referer': 'https://leetcode.com/accounts/login/', "origin": "https://leetcode.com"}

m = MultipartEncoder(params_data)

headers['Content-Type'] = m.content_type

session.post(url, headers = headers, data = m, timeout = 10, allow_redirects = False)

is_login = session.cookies.get('LEETCODE_SESSION') != None

return is_login

爬

最低0.47元/天解锁文章

eternal?

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python实现leetcode_Python爬取 LeetCode 题目及 AC 代码

前言最近在刷算法题，想要整理一下做个总结，发现每道题都要复制粘贴题目和解法实在太浪费时间了。本着解放劳动力的思维研究了下 LeetCode 爬虫，把题目和代码爬取自动生成 Markdown 文档。我已经把项目提交到了 github 上了，欢迎大家 star、fork。在这里贴的代码为了方便理解，在源码上做了些改动。模拟登陆 LeetCdoe页面分析要做一个爬虫，先得了解页面逻辑。如果有现成的接口可...
复制链接

扫一扫