问题记录总结-豆瓣电影评分Top250名称爬取

本文记录了使用Python爬取豆瓣电影Top250和图书Top250名称的过程,涉及requests库、BeautifulSoup解析及反爬虫策略。在爬取过程中,遇到的问题包括字符串空格处理和HTTP响应状态码418,通过调整代码成功解决。
摘要由CSDN通过智能技术生成

碎碎念:
本文代码参考:Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影
完整过程请参考上文,解释得非常清楚,感谢!
本文只在记录编写代码中遇到的问题以及知识点的学习(用啥学啥 (๑•̀ㅂ•́)و✧)
就 你有时候copy代码吧 也不一定能跑出来…
能跑出来吧 也不一定就完全弄懂了每一行代码…

学习:豆瓣电影Top250名称爬取

完整代码

先放上完整代码看看。

# 参考:https://blog.csdn.net/weixin_44547562/article/details/103533502
# 2019.12.16
# ASerendipity_
import time
import requests
from bs4 import BeautifulSoup


# 定义获取页面的函数
def get_page(url, params=None, headers=None):
    response = requests.get(url, headers=headers, params=params)
    page = BeautifulSoup(response.text, 'lxml')
    print(response.url)
    print("响应状态码:", response.status_code)

    return page


title_list = []  # 电影名列表
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
    'Host': 'movie.douban.com'
}
for i in range(11):
    params = {
   "start": (i * 25)}
    page = get_page('https://movie.douban.com/top250', params=params, headers=headers)

    div_list = page.find_all('div', class_='hd')

    for div in div_list
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值