Python练习之爬取豆瓣电影TOP250

本文介绍了使用Python进行网络爬虫的实战案例,目标是抓取豆瓣电影Top250的页面信息。首先,通过打印HTML页面辅助分析所需的数据标签,然后解决单页数据抓取问题。进一步,通过循环实现多页数据的抓取,并将结果存入表格。在调试过程中逐步完善程序,直至成功运行。
摘要由CSDN通过智能技术生成

上代码:

'''
先爬豆瓣top250的电影,并放入一个表格中去。
思路:
先爬取最小共同父级标签<div>,然后针对每一个父级标签,提取里面的序号/电影名/评分/推荐语/链接。
然后将其放入csv表格中去。
'''
#导入库,csv用来进行表格操作
import requests,csv
from bs4 import BeautifulSoup

#———————————————————爬取电影信息———————————————————#

#因为是top250的电影,而一页只能显示25条电影信息,所有一共有10页,定义一个开始的电影序号
#每增加一页,序号就加25
movie_num = 0

#用于存放电影信息的列表
movies = []					#所有电影
movie_names = [] 			#名称
movie_sequs = [] 			#序号
movie_stars = []			#评分
movie_recomms = []			#推荐语
movie_hrefs = []			#链接

#为躲避反爬虫机制,伪装成网页请求,一般通用
headers={ 
'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US)AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20',
'Host':'movie.douban.com'
		}

while movie_num <= 225:

	#url = 'https://movie.douban.com/top250?start=0&amp;filter=',电影分页的url
	url = 'https://movie.douban.com/top250?start={}&filter='.format(movie_num)
	
	#requests.get()返回一个Response实例
	get_pages = requests.get(url,headers = headers)


	#判断响应状态码
	if get_pages.status_code == 200:

		#页面解析,返回的是bs对象
		soup = BeautifulSoup(get_pages.text,'html.parser')

		#通过class_ = &
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值