Python爬豆瓣电影top250导出Excel

最新推荐文章于 2023-05-08 16:38:50 发布

Planet18

最新推荐文章于 2023-05-08 16:38:50 发布

阅读量877

点赞数

分类专栏： python 文章标签： python xpath html

本文链接：https://blog.csdn.net/a939006659/article/details/108186385

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

首先需要安装好爬虫需要用到的python库开发工具使用的是pycharm

1:request 网络请求模块

2:lxml 取数据的模块这里用的是xpath 没有用bs4

3.xlwings 对Excel进行读写的模块

如果安装失败或者安装缓慢可以参考我之前的博客将pycharm镜像更换为清华大学镜像

更换开发工具的镜像一键到达

首先需要知道豆瓣电影的url是这样的

第二页:https://movie.douban.com/top250?start=25&filter=

第三页:https://movie.douban.com/top250?start=50&filter=

第四页:https://movie.douban.com/top250?start=75&filter=

也就是说每一页有25条数据 get请求的start参数就是起始的数据结束的数据就是 25 50 75等等

那么只需要在get请求中从0开始每次加25即可因为是top250 所以加到225就不加了

首先需要写好start参数变化的值请求url封装成requesUrl方法


if __name__ == "__main__":
    start = 0
    while start <= 225:
        requestUrl(start)
        start = start + 25

接下来封装requestUrl函数

def requestUrl(start):
    url = "https://movie.douban.com/top250"
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
    }
    params = {
        "start": start,
        "filter": ""
    }
    response = requests.get(url=url, params=params, headers=header).text
    terr = etree.HTML(response)
    terr_lis = terr.xpath('//ol[@class="grid_view"]/li')

    for i in terr_lis:
        video_name = i.xpath('./div/div/div/a/span/text()')[0]
        video_score = i.xpath('./div/div/div/div/span[2]/text()')[0]
        video_evaluate = i.xpath('./div/div/div/div/span[4]/text()')[0]
        # print(text + ' 评分:' + number + "\n")

这里教大家一个小技巧

这里可以直接copy出来xpath的路径不用一个一个的写很方便的

其中 video_name是电影名称 video_score是电影评分 video_evaluate电影的评论人数

到这里已经拿到了我们想要的数据下面就是使用xlwings 导出数据

    wb = xw.Book("e:\example.xlsx")
    sht = wb.sheets["sheet1"]
    sht.range('A1').value = "xlwiassssssssssssssssngs"

这是最基本的用法首先打开文件然后获取工作表 A1对应的是网格的位置 value就是需要写入的值

那么我们就知道A是固定的 1是动态的所以只需要动态改变A后边的数据即可

完整代码如下

import requests
from lxml import etree
import xlwings

video_name_colunm = 0
video_score_colunm = 0
video_evaluate_colunm = 0


def requestUrl(start):
    global video_name_colunm
    global video_score_colunm
    global video_evaluate_colunm

    url = "https://movie.douban.com/top250"
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
    }
    params = {
        "start": start,
        "filter": ""
    }
    response = requests.get(url=url, params=params, headers=header).text
    terr = etree.HTML(response)
    terr_lis = terr.xpath('//ol[@class="grid_view"]/li')

    for i in terr_lis:
        video_name = i.xpath('./div/div/div/a/span/text()')[0]
        video_score = i.xpath('./div/div/div/div/span[2]/text()')[0]
        video_evaluate = i.xpath('./div/div/div/div/span[4]/text()')[0]
        # print(text + ' 评分:' + number + "\n")

        video_name_colunm = video_name_colunm + 1
        video_name_xls = "A" + str(video_name_colunm)
        sht.range(video_name_xls).value = video_name

        video_score_colunm = video_score_colunm + 1
        video_score_xls = "B" + str(video_score_colunm)
        sht.range(video_score_xls).value = video_score

        video_evaluate_colunm = video_evaluate_colunm + 1
        video_evaluate_xls = "C" + str(video_evaluate_colunm)
        sht.range(video_evaluate_xls).value = video_evaluate
        sht.range(video_evaluate_xls).columns.autofit()
        print("正在写入----" + video_name)


if __name__ == "__main__":

    wb = xlwings.Book("d:\example.xlsx")
    sht = wb.sheets["sheet1"]
    start = 0
    while start <= 225:
        requestUrl(start)
        start = start + 25

这里新建了3个全局变量并且初始化为0 每次+1 好了这下结果就出来了

基本思路就是这样想要导出什么数据可以自己尝试

Planet18

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬豆瓣电影top250导出Excel

这里只爬取的第一页如果想爬取全部的在加for循环这里就不做代码演示了具体的层级结构请直接参考https://movie.douban.com/top250首先导包import requestsfrom lxml import etree然后设置UA 并且赋值个给etree对象生成返回值 terr url = "https://movie.douban.com/top250" header = { "User-Agent": "Mozilla/5.0..
复制链接

扫一扫

专栏目录