碎碎念:
本文代码参考:Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影
完整过程请参考上文,解释得非常清楚,感谢!
本文只在记录编写代码中遇到的问题以及知识点的学习(用啥学啥 (๑•̀ㅂ•́)و✧)
就 你有时候copy代码吧 也不一定能跑出来…
能跑出来吧 也不一定就完全弄懂了每一行代码…
文章目录
学习:豆瓣电影Top250名称爬取
完整代码
先放上完整代码看看。
# 参考:https://blog.csdn.net/weixin_44547562/article/details/103533502
# 2019.12.16
# ASerendipity_
import time
import requests
from bs4 import BeautifulSoup
# 定义获取页面的函数
def get_page(url, params=None, headers=None):
response = requests.get(url, headers=headers, params=params)
page = BeautifulSoup(response.text, 'lxml')
print(response.url)
print("响应状态码:", response.status_code)
return page
title_list = [] # 电影名列表
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
'Host': 'movie.douban.com'
}
for i in range(11):
params = {
"start": (i * 25)}
page = get_page('https://movie.douban.com/top250', params=params, headers=headers)
div_list = page.find_all('div', class_='hd')
for div in div_list