python多线程爬取某瓣Top250电影信息存为txt（requests库，multiprocessing库，os库）

最新推荐文章于 2023-03-13 18:12:48 发布

WiKiLeaks_successor

最新推荐文章于 2023-03-13 18:12:48 发布

阅读量841

点赞数 1

分类专栏： Python_Spyder 文章标签：爬虫豆瓣电影多线程 Python 数据抓取

本文链接：https://blog.csdn.net/weixin_43408020/article/details/123058644

版权

Python_Spyder 专栏收录该内容

28 篇文章 0 订阅

订阅专栏

今天，忍不住了，找我同学借电脑来编程，一天不编程，全身难受。

代码如下：

from lxml import etree
import requests
import time
import re
from multiprocessing.dummy import Pool
import random
import os

"""
#encoding="utf-8"
#Author:Mr.Pan_学狂
#finish_time:2022/2/21 23:39
"""

url_ls = []
for n in range(0,226,25):
    url = 'https://movie.douban.com/top250?start={}&filter='.format(n)
    url_ls.append(url)
print(url_ls)
def spider(url):
    # url = "https://movie.douban.com/top250?start={}&filter=".format(0)
    headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
    }
    response = requests.get(url,headers=headers)
    response.encoding="utf-8"
    html = response.text
    # print(html)
    reg1 = '<span class="title">(.*?)</span>'
    movie_name = re.findall(reg1,html)
    reg2 = """<p class="">
                            (.*?)...<br>"""
    person = re.findall(reg2,html)
    person_ls = []
    for p in person:
        if '&nbsp;' in p:
            p = p.replace('&nbsp;','')
            person_ls.append(p)

    reg3 = """<br>
                            (.*?)
                        </p>"""
    movie_info = re.findall(reg3,html)
    info_ls = []
    for info in movie_info:
        if '&nbsp;' in info:
            f = info.replace('&nbsp;', '')
            info_ls.append(f)
    print(person_ls)
    print(info_ls)
    movie_name_ls = []
    for name in movie_name:
        if '&nbsp;/&nbsp' in name:
            continue
        else:
            movie_name_ls.append(name)
    print(movie_name_ls)

    if os.path.exists('E:/movie/'):
        length = len(movie_name_ls)
        for n in range(length):
            with open('E:/movie/movie_data.txt','a+',encoding="utf-8") as f:
                f.write(movie_name_ls[n]+"\n"+person_ls[n]+"\n"+info_ls[n]+"\n")
    else:
        os.mkdir('E:/movie/')
        length = len(movie_name_ls)
        for n in range(length):
            with open('E:/movie/movie_data.txt','a+',encoding="utf-8") as f:
                f.write(movie_name_ls[n]+"\n"+person_ls[n]+"\n"+info_ls[n]+"\n")

    # return person_ls,info_ls,movie_name_ls

if __name__ == '__main__':
    pool = Pool(2)#开启两个线程
    try:
        pool.map(spider, url_ls)  # 多线程爬取
    except Exception:
        pass