【Python爬虫】使用selenium模块模拟浏览器行为爬取豆瓣电影top250

最新推荐文章于 2024-05-31 21:24:28 发布

chibuqikendeji

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量1.5k

点赞数 1

分类专栏： Python基础 python简单爬虫文章标签： Pyhton入门到放弃爬虫

本文链接：https://blog.csdn.net/chibuqikendeji/article/details/81382490

版权

使用selenium模块模拟浏览器行为访问豆瓣电影top250页面，然后爬取第一页内容之后，模拟点击下一页，从而获取接下来的网页的html代码，并且进行内容筛选。筛选出排名，名字，播放地址，导演和主演，评价数，评分和电影简介。具体实现代码如下(代码中有注释，就不一一拆分解释了)：

from bs4 import BeautifulSoup
from selenium import webdriver
from openpyxl import workbook

def dealinfo():
    global tag
    global sign
    # 获取网站源代码
    soup = BeautifulSoup(driver.page_source, 'lxml')
    # 找到所有的电影信息
    movie_list = soup.find('ol', class_='grid_view')

    # 找到电影的播放地址和排名
    pic_list = movie_list.find_all('div',{'class':'pic'})
    for i in pic_list:
        #播放地址
        url_list.append(i.find('a')['href'])
        #排名
        rank_list.append(i.find('em').text)

    # 寻找电影的名字
    title_list = movie_list.find_all('div',{'class':'hd'})
    for i in title_list:
        name = i.

最低0.47元/天解锁文章

chibuqikendeji

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【Python爬虫】使用selenium模块模拟浏览器行为爬取豆瓣电影top250

使用selenium模块模拟浏览器行为访问豆瓣电影top250页面，然后爬取第一页内容之后，模拟点击下一页，从而获取接下来的网页的html代码，并且进行内容筛选。筛选出排名，名字，播放地址，导演和主演，评价数，评分和电影简介。具体实现代码如下(代码中有注释，就不一一拆分解释了)：from bs4 import BeautifulSoupfrom selenium import webdri...
复制链接

扫一扫

专栏目录