Python 爬虫闯关（第四关）-续

最新推荐文章于 2023-09-12 17:35:44 发布

hoxis

最新推荐文章于 2023-09-12 17:35:44 发布

阅读量527

点赞数

分类专栏： python学习有趣的Python 文章标签： Python 爬虫

本文链接：https://blog.csdn.net/bruce_6/article/details/81903354

版权

上回 Python 爬虫闯关（第四关）中，我们发现程序执行过程非常漫长，将近 24 分钟啊！另外页面也有提示说：网页会慢半拍。那么也许需要一个高效率的方法进行解析，多线程？

题意再理解

本关的题目内容，这里再简单说一下：不清楚的翻下历史。

页面给出了闯关所需密码的随机位置，以及该位置的值，我们需要遍历所有页面，获取到 100 位的密码。

其中，值得注意的两点：

每一页的载入速度非常慢（正如页面内容所述），大约需要 15 秒，这是黑板课后台故意设置的；
每个页面是动态加载的，每次获取到的密码的位置并不是相同的，也就是检索完 13 页数据也不能得到 100 位的密码，需要重复检索以得到其余位置的密码。

由此可见，必须使用多线程才能迅速得到密码。

闯关思路

多线程编程使用 threading 模块，登录过程和第 3 关一样，基本只需要在第 3 关的基本上增加获取密码的功能就可以了。

初始化一个字典，用来存放密码；
每个线程都不断获取页面的全部位置和值，并将它们更新到字典中；
判断字典长度，如果字典的长度小于 100，则继续抓取页面数据并跟新字典，直到长度满足 100；
将字典中的数据转换为字符串，然后通过 post 提交到服务器进行登录；

实现

# coding=utf-8

import requests, bs4
import threading
import time

def login():
    # 登录URL，获取cookie
    login_url = 'http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex03/'

最低0.47元/天解锁文章

hoxis

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录