使用Python获取“豆瓣电影”相关数据,并生成Excel表格
本文使用了requests
和pandas
第三方库,对豆瓣电影各相关数据进行爬取,并记录至Excel表格内。但发现存在以下三个问题:
- 生成的Excel表格,第一个sheet页为空
- 数据爬取数据过长
- 无法获取每个标签的具体电影数量,所以我取了一个吉祥的数字
520
,但请各位大佬指教,若为空,则直接停止,进入下一个标签的爬取
请各位大佬进行指教,并进行优化,小弟在此谢谢!
注:要是觉得文章写得不错,记得留个赞哦!
因为如果一开始不生成一个sheet页,则无法使用ExcelWriter
的方法,小弟的解决方法是使用remove
方法进行移除多余的sheet页,代码如下,请各位大佬指教!
# 移除创建表格时多余的sheet页
def del_excel(self):
book = load_workbook(self.fileName)
ws = book["Sheet1"]
book.remove(ws)
book.save(self.fileName)
爬取豆瓣电影相关数据的具体代码如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests as re
from openpyxl import load_workbook
import pandas as pd
import json
class DouBan:
def __init__(self):
self.sr1 = pd.DataFrame(columns=["评分", "电影名"], index=None)
self.fileName = 'C:/Users/Administrator/Desktop/豆瓣电影评分.xlsx'
# sheetName = '豆瓣电影评分'
# 获取检索标签名
self.tag_Movie = {
0: "热门",
1: "最新",
2: "经典",
3: "豆瓣高分",
4: "冷门佳片",
5: "华语",</