Python生成自定义表头Excel

最新推荐文章于 2024-05-19 15:22:30 发布

啤酒就辣条

最新推荐文章于 2024-05-19 15:22:30 发布

阅读量6.8k

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/qq_19006223/article/details/107492461

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前言

有个小需求，要生成一个excel，自定义表头那种，忽然想起原来写的扒拉豆瓣电影的脚本。贴上，一看就懂。今天试了一下，发现原来的脚本需要加上header，设置User-Agent，否则读出来页面是空。

用的 pandas ，除了install 开头的三个模块，还需要insatll openpyxl(pandas必需)、lxml(我代码必需)

代码

import requests as rq
from bs4 import BeautifulSoup
import pandas as pd

header = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"
}


def get_data(url):
    print(url)
    html = rq.get(url, headers=header).content.decode("utf-8")
    soup = BeautifulSoup(html,"lxml")
    divItems = soup.find_all("div","item")

    for item in divItems:
        name = item.find('span',{'class':'title'}).text
        rating_num = item.find('span',{'class':'rating_num'}).text
        number = item.find('em').text
        imgUrl = item.find("img").attrs['src']
        print("----------->")
        print("number:"+number)
        numbers.append(number)

        print("name:"+name)
        names.append(name)

        print("rating_num:"+rating_num)
        rating_nums.append(rating_num)

        print("imgUrl:"+imgUrl)
        imgUrls.append(imgUrl)
        print("----------->")


data_df = pd.DataFrame()
numbers = []
names = []
rating_nums = []
imgUrls = []

for num in range(0,10):
    get_data("https://movie.douban.com/top250?start={}&filter=".format(int(num)*25))

data_df["序列"] = numbers
data_df["名称"] = names
data_df["评分"] = rating_nums
data_df["海报"] = imgUrls
writer = pd.ExcelWriter('movie_top250.xlsx')
data_df.to_excel(writer, 'page_1', float_format='%.5f')  # float_format 控制精度
writer.save()

啤酒就辣条

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
Python生成自定义表头Excel

前言有个小需求，要生成一个excel，自定义表头那种，忽然想起原来写的扒拉豆瓣电影的脚本。贴上，一看就懂。今天试了一下，发现原来的脚本需要加上header，设置User-Agent，否则读出来页面是空。用的 pandas ，除了install 开头的三个模块，还需要insatll openpyxl(pandas必需)、lxml(我代码必需)代码import requests as rqfrom bs4 import BeautifulSoupimport pandas as pdheade
复制链接

扫一扫