上代码:
'''
先爬豆瓣top250的电影,并放入一个表格中去。
思路:
先爬取最小共同父级标签<div>,然后针对每一个父级标签,提取里面的序号/电影名/评分/推荐语/链接。
然后将其放入csv表格中去。
'''
#导入库,csv用来进行表格操作
import requests,csv
from bs4 import BeautifulSoup
#———————————————————爬取电影信息———————————————————#
#因为是top250的电影,而一页只能显示25条电影信息,所有一共有10页,定义一个开始的电影序号
#每增加一页,序号就加25
movie_num = 0
#用于存放电影信息的列表
movies = [] #所有电影
movie_names = [] #名称
movie_sequs = [] #序号
movie_stars = [] #评分
movie_recomms = [] #推荐语
movie_hrefs = [] #链接
#为躲避反爬虫机制,伪装成网页请求,一般通用
headers={
'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US)AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20',
'Host':'movie.douban.com'
}
while movie_num <= 225:
#url = 'https://movie.douban.com/top250?start=0&filter=',电影分页的url
url = 'https://movie.douban.com/top250?start={}&filter='.format(movie_num)
#requests.get()返回一个Response实例
get_pages = requests.get(url,headers = headers)
#判断响应状态码
if get_pages.status_code == 200:
#页面解析,返回的是bs对象
soup = BeautifulSoup(get_pages.text,'html.parser')
#通过class_ = &