Python练习之爬取豆瓣电影TOP250

最新推荐文章于 2024-10-17 19:17:50 发布

g_h_p

最新推荐文章于 2024-10-17 19:17:50 发布

阅读量2.3k

点赞数 5

分类专栏：小项目练习文章标签： python

本文链接：https://blog.csdn.net/g_h_p/article/details/106147768

版权

本文介绍了使用Python进行网络爬虫的实战案例，目标是抓取豆瓣电影Top250的页面信息。首先，通过打印HTML页面辅助分析所需的数据标签，然后解决单页数据抓取问题。进一步，通过循环实现多页数据的抓取，并将结果存入表格。在调试过程中逐步完善程序，直至成功运行。

摘要由CSDN通过智能技术生成

上代码：

'''
先爬豆瓣top250的电影，并放入一个表格中去。
思路：
先爬取最小共同父级标签<div>，然后针对每一个父级标签，提取里面的序号/电影名/评分/推荐语/链接。
然后将其放入csv表格中去。
'''
#导入库，csv用来进行表格操作
import requests,csv
from bs4 import BeautifulSoup

#———————————————————爬取电影信息———————————————————#

#因为是top250的电影，而一页只能显示25条电影信息，所有一共有10页，定义一个开始的电影序号
#每增加一页，序号就加25
movie_num = 0

#用于存放电影信息的列表
movies = []					#所有电影
movie_names = [] 			#名称
movie_sequs = [] 			#序号
movie_stars = []			#评分
movie_recomms = []			#推荐语
movie_hrefs = []			#链接

#为躲避反爬虫机制，伪装成网页请求,一般通用
headers={ 
'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US)AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20',
'Host':'movie.douban.com'
		}

while movie_num <= 225:

	#url = 'https://movie.douban.com/top250?start=0&amp;filter=',电影分页的url
	url = 'https://movie.douban.com/top250?start={}&filter='.format(movie_num)
	
	#requests.get()返回一个Response实例
	get_pages = requests.get(url,headers = headers)


	#判断响应状态码
	if get_pages.status_code == 200:

		#页面解析，返回的是bs对象
		soup = BeautifulSoup(get_pages.text,'html.parser')

		#通过class_ = &