requests爬取豆瓣电影top250

最新推荐文章于 2024-04-23 11:36:40 发布

JiaXionG_Lynn

最新推荐文章于 2024-04-23 11:36:40 发布

阅读量688

点赞数

本文链接：https://blog.csdn.net/JiaXionG_Lynn/article/details/102703592

版权

本文介绍如何利用requests库爬取豆瓣电影Top250的数据，包括请求URL、解析HTML和获取关键信息等内容。

摘要由CSDN通过智能技术生成

代码

import requests
from lxml import etree
from concurrent.futures import ThreadPoolExecutor


class Crawl_douban(object):
    # 设定初始化方法，并设置实例变量header、page_url（list类型）分别记录爬虫的请求头和目标抓取页的url
    def __init__(self):
        self.url = []
        self.header = {
   
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3902.4 Safari/537.36',
        }

    # 将构造好的目标页URL存储于记录目标抓取页url的列表中
    def page_url(self):
        for i in range(0,