python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片，分别保存到csv文件和文件夹中

VIP文章白驹_过隙

已于 2022-05-30 15:55:17 修改

阅读量2.3k

点赞数 2

文章标签： python pycharm 开发语言

于 2022-05-30 15:54:03 首次发布

本文链接：https://blog.csdn.net/qq_42145681/article/details/125047764

版权

python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片，分别保存到csv文件和文件夹中。爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型。

py如果有包未安装，鼠标放在红线下安装上即可。生成的csv文件和当前py文件同目录，下载的图片文件夹路径可以自己设置，在代码的第49行和53行，默认放在d盘paqu文件夹中，需要自己先创建文件夹，如果和我的同名同位置不用改代码，否则改第49行和53行的路径为你自己的。

代码在最下面

爬取图片

写入csv

电影图片保存到本地

import requests, bs4, csv
import re
from loguru import logger

csv_file=open('films.csv', 'w', newline='',encoding='

最低0.47元/天解锁文章

优惠劵

白驹_过隙

关注关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片，分别保存到csv文件和文件夹中

python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片
复制链接

扫一扫

用爬虫爬取豆瓣电影TOP250，并用PythonTkinter实现GUI展示与电影信息检索

06-23

用爬虫爬取豆瓣电影TOP250，并用PythonTkinter实现GUI展示与电影信息检索

python爬虫小案例（爬取豆瓣电影top250的电影信息）

weixin_40913890的博客

06-29

3063

一、准备（流程）访问指定URL 需要导包：import urllib.request,urllib.error 爬取数据需要导包：import bs4 分析并保存数据需要导包：import xlwt #存放到Excel，进行Excel操作。或import sqlite3 #存放到数据库，进行SQLite3数据库操作主调函数调用前面的函数运行调用主调函数二、分流程 1、访问指定的url （1）导包 import urllib.request,urllib.error

参与评论您还未登录，请先登录后发表或查看评论

python爬虫之豆瓣首页图片爬取

jolinoy的博客

01-30

778

【代码】python爬虫之豆瓣首页图片爬取。

python爬虫-图片爬取（豆瓣TOP250）

2301_76819732的博客

03-26

358

使用BeautifulSoup是为了更好的处理html。后续可以学习正则匹配、多线程。

用python爬取豆瓣电影信息

DragonsUyz的博客

08-20

1008

用python爬取豆瓣电影信息

【python爬虫案例】用python爬豆瓣读书TOP250排行榜！

马哥的专栏

08-31

948

马哥原创：用python采集豆瓣读书250排行榜数据。

python爬取豆瓣影评，涉及知识点：bs4，requests、time、random

jolinoy的博客

01-08

607

看得不那么真切，也不需要那么真切。暧昧是永不落地的无脚鸟，永远在变动中渴望稳定，在稳定中渴望变动，唯一不变的是阿飞知道，这暧昧落定的时候，他就不复存在...贺岁档已经过好几天了，元旦假期也结束了，刚查了一下电影票房榜，贺岁档主推的五部国产新片中，《非诚勿扰3》竟然排在最末，才几千万元，最后估计破亿都很难，和另一部喜剧片《年会不能停！连做四季《风味人间》后，“美食活地图”陈晓卿开启了一档全新的美食节目：《我的美食向导》。像我这样没条件在天南海北体验、只能窝着看节目解馋的“吃货”观众，它是典型的“越看越饿”。

BS4_爬取豆瓣电影Top250

King15229085063的博客

02-20

2088

爬取豆瓣电影Top250 源代码： import re import openpyxl import requests from bs4 import BeautifulSoup def get_content(url): try: user_agent = 'Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/2010...

实战1：【爬虫】爬取豆瓣TOP250的电影数据

qq_23015479的博客

11-11

1126

学习最重要的就是不断吸收新的知识和不断的输出，有的时候感觉学会了，但是想要将学会的东西写出来还是很费时间的，本篇博文从实战入手写一个爬虫，将学过的知识一点点串联起来，希望对大家的学习有帮助。

requests + bs4 爬取豆瓣 top250 电影信息

GYK0812的博客

05-29

805

""" 爬取豆瓣top250个电影 """ import requests import bs4 import re def open_url(url): headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'} res = requests.get(url,

给豆瓣端一碗热汤！bs4解析电影DBTop250 (入门小白级python爬虫)

Zihuatanjo

04-03

1096

最近的课程是scrapy爬虫框架，fiddler手机抓包，以及redis数据库。感觉刚刚对面向对象编程有了一定的认识就迎来了更高阶的编程知识。anyway，在新的知识里消化和巩固已经学完的知识吧。另，本博所撰皆适合新手入门练习，希望大家能共同进步！ 豆瓣电影top250爬虫，利用热汤（自己起的名字），非常容易解析，最后数据存入表格~ 上码子~ import requests # 请求库 fro...

使用bs4爬取豆瓣top250电影并保存到csv中

LAPfung的博客

01-16

921

import requests from bs4 import BeautifulSoup import time import pandas as pd # 数据存放在列表里 datas = [] kv={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36', 'cookie':'bid..

Python爬取豆瓣top250电影数据，并导入MySQL，写入excel

12-21

Python爬取豆瓣top250电影数据，并导入MySQL，写入excel 具体数据：电影链接、电影名称、电影评分、评分人数、电影概括 import pymysql import xlwt from bs4 import BeautifulSoup from urllib import request ...

用Python爬取豆瓣电影分类排行榜（保存至本地）

08-08

用 Python 爬取豆瓣电影分类排行榜并保存到本地excel文件作者博客：https://blog.csdn.net/weixin_52132159 文章链接：https://blog.csdn.net/weixin_52132159/article/details/119505289

Python爬虫——爬取豆瓣电影Top250代码实例

09-19

主要介绍了Python爬取豆瓣电影Top250实例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

Python爬虫程序源代码爬取豆瓣TOP250排行榜数据电影名称评分导演演员等信息

12-21

Python爬虫程序源代码爬取豆瓣TOP250排行榜数据电影名称评分导演演员等信息知识领域：数据爬取、数据分析、Python编程技术关键词： Python、网络爬虫、数据抓取、数据处理内容关键词： 豆瓣电影、排行榜、数据...

Day25-Java基础之常用类1

m0_46053885的博客

04-27

928

同时我们发现Math类中的方法都是静态的，因此在使用的时候我们可以直接通过类名去调用。对于计算机而言，其实是没有数据类型的概念的，都是0101010101，数据类型是编程语言自己规定的，所以在实际存储的时候，先把具体的数字变成二进制，每32个bit为一组，存储在数组中。比较内存地址值一般情况下是没有意义的，我们希望比较的是对象的属性，如果两个对象的属性相同，我们认为就是同一个对象；如果我们的数据是一个浮点类型的数据，有的时候计算机并不会将这个数据完全转换成一个二进制数据，而是将这个将其转换成一个无限的。

Lambda表达式特点

weixin_57763462的博客

04-24

898

**API 设计**：Lambda 表达式鼓励使用函数式接口的设计模式，这改变了 Java 库的设计，例如 `java.util.function` 包下的一系列函数式接口。- **函数式编程**：Lambda 表达式引入了函数式编程的理念，使得 Java 更接近于函数式编程语言，如 Scala 和 Clojure。- **并发编程**：Lambda 表达式与 Java 8 新增的 Stream API 结合使用，可以简化并发编程，特别是与集合的操作相关。

AttributeError: module ‘numpy‘ has no attribute ‘float‘.的解决方法

最新发布

chen_znn的博客

04-30

339

本文记录了AttributeError: module 'numpy' has no attribute 'float'.的解决方法

用Python帮我爬取豆瓣电影top250的电影信息保存为CSV文件然后可视化

05-23

好的，可以使用 Python 的 requests 库和 BeautifulSoup 库来对豆瓣电影 top250 进行爬取，并使用 Pandas 和 Matplotlib 库进行数据分析和可视化。以下是示例代码： ```python import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt # 定义请求头信息 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 定义函数，获取页面信息 def get_page(url): try: response = requests.get(url, headers=headers) if response.status_code == 200: return response.text return None except RequestException: return None # 定义函数，解析页面信息 def parse_page(html): soup = BeautifulSoup(html, 'lxml') items = soup.find_all('div', class_='item') for item in items: yield { '电影排名': item.find('em', class_='').text, '电影名称': item.find('span', class_='title').text, '电影评分': item.find('span', class_='rating_num').text, '评价人数': item.find('div', class_='star').find_all('span')[3].text[:-3], '电影介绍': item.find('span', class_='inq').text if item.find('span', class_='inq') else '' } # 定义函数，保存数据为CSV文件 def save_data(data): df = pd.DataFrame(data) df.to_csv('douban_top250.csv', index=False, encoding='utf-8') # 定义函数，绘制评分分布图 def plot_rating(data): ratings = data['电影评分'].astype(float) plt.hist(ratings, bins=20, color='steelblue', edgecolor='k') plt.xlabel('电影评分') plt.ylabel('电影数量') plt.title('豆瓣电影 Top250 评分分布图') plt.show() # 主函数 def main(): url = 'https://movie.douban.com/top250' movies = [] for i in range(10): page_url = url + '?start=' + str(i * 25) + '&filter=' html = get_page(page_url) for item in parse_page(html): movies.append(item) save_data(movies) df = pd.DataFrame(movies) plot_rating(df) if __name__ == '__main__': main() ``` 运行代码后，会在当前目录下生成一个名为 douban_top250.csv 的文件，同时还会绘制出豆瓣电影 Top250 的评分分布图。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交