selenium爬取豆瓣电影和电视剧

最新推荐文章于 2024-04-30 13:40:21 发布

不强头发不少

最新推荐文章于 2024-04-30 13:40:21 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签： selenium python 爬虫

本文链接：https://blog.csdn.net/qq_55048096/article/details/122383028

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

简述

代码直接借助python的selenium的库来控制浏览器，与requests和bs4相比，selenium允许你用高级多的方法实现网页交互，但是因为他启动了Web浏览器，下载文件会比较慢，并且难以在后台运行。假如你考虑的不是通过此程序来练习，那么就直接退出这篇文章。

思路上面，在父页面获取10部电影或者电视剧的link，然后跳转到电影详情页，进行信息爬取。

import os,re
from time import sleep
from selenium import webdriver

URL = "https://www.douban.com/"
URLmovie = 'https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0'
URLseries = ''#后面直接加入跳转，无需这个变量
webdri_path = r'C:\Users\86151\AppData\Local\Google\Chrome\Application\chromedriver.exe'
global flag 

os.mkdir(os.path.join(".","douban"))
os.mkdir(os.path.join(".","douban","movie"))
os.mkdir(os.path.join(".","douban","series"))

# 定义一个函数来获取电影的相关信息，并且存放在文件里面
def getInfo(titleOfWork,aim):
    # 获取电影发布时间和作品名称
    releaseTime = driver.find_element_by_class_name('year')
    if int(re.sub(r"\D","",releaseTime.text)) < 2018:
        return
    # 利用正则表达式取出发布时间中的非数字内容
    fileName = re.sub(r"\D","",releaseTime.text) + re.sub(r"\W","",titleOfWork)
    print(fileName)
    os.mkdir(os.path.join(".","douban",aim,fileName))

    # 存放电影图片
    driver.find_element_by_xpath('//*[@id="mainpic"]/a/img').screenshot(os.path.join(".","douban",aim,fileName,"pic.png"))
    # 创建一个txt文件，写入作品的基本内容，名称，上映年份，导演，主演，作品简介，豆瓣关于这个作品的链接
    with open(os.path.join(".","douban",aim,fileName,"info.txt"),"a") as movieFile:
        # 写入作品名称
        movieFile.write(titleOfWork+"\n")
        # 写入作品上映年份
        movieFile.write("上映日期:" + re.sub(r"\D","",releaseTime.text)+"\n")
        # 写入作品导演
        director = driver.find_element_by_class_name('attrs').text
        movieFile.write("导演:" + director+"\n")
        # 写入作品主演
        starring = driver.find_element_by_class_name('actor').text
        movieFile.write(starring+"\n")
        # 写入作品简介
        # introduction = driver.find_element_by_xpath('//*[@id="link-report"]/span[1]').text
        introduction = driver.find_element_by_class_name('related-info').text
        movieFile.write(introduction+"\n")
        # 写如链接
        movieFile.write("链接:"+driver.current_url)
        global flag 
        flag +=1
def openURL(aim,Links):
    global flag
    flag = 0
    for link in Links:
        # 获取电影名称
        titleOfWork = link.text
        print(type(link.text[-3:]))
        if ("." not in titleOfWork[-3:]) or (float(titleOfWork[-3:]) < 7):
            continue
        driver.execute_script(js.format(link.get_attribute("href")))
        driver.switch_to_window(driver.window_handles[-1])
        getInfo(titleOfWork[:-3],aim)
        # 关闭新建的电影窗口
        driver.close()
        driver.switch_to_window(driver.window_handles[0])
        if flag == 10:
            break
try:
    driver = webdriver.Chrome(webdri_path)
    driver.get(URLmovie)
    driver.implicitly_wait(3)
    driver.maximize_window()
    sleep(1)
    js = "window.open('{}','_blank');"

    # 选10部电影，按评价排序选取电影
    driver.find_element_by_xpath('//*[@id="content"]/div/div[1]/div/div[2]/div[1]/form/div[3]/div[1]/label[2]/input').click()
    driver.find_elements_by_css_selector('.tag-list label')[4].click()
    # 将所有的电影链接存放在links数组里面
    movieLinks = driver.find_elements_by_class_name("item")
    openURL("movie",movieLinks)

    # 处理电视剧部分
    driver.find_element_by_xpath('//*[@id="db-nav-movie"]/div[2]/div/ul/li[3]/a').click()
    seriesLinks = driver.find_elements_by_class_name("item")
    openURL("series",seriesLinks)

    driver.quit()
except Exception as e:
    print(e)