requests爬取猫眼电影403错误解决方法

最新推荐文章于 2025-04-15 10:50:50 发布

CH-Lee

最新推荐文章于 2025-04-15 10:50:50 发布

阅读量6k

点赞数 2

分类专栏：爬虫文章标签：爬虫 Python3

本文链接：https://blog.csdn.net/weixin_40567229/article/details/84545576

版权

原代码如下:

import requests
from requests.exceptions import RequestException


def one_page_code(url):
    try:
        page = requests.get(url)
        if page.status_code == 200:
            return page.text
        print("Failed\n状态码为%d"%(page.status_code))
    except RequestException:
        print("Exception")

def main():
    url = 'http://maoyan.com'
    print(one_page_code(url))

if __name__ == '__main__':
    main()

这个代码无论是请求百度、淘宝还是豆瓣都能正常的显示出网页源代码，但是在爬取猫眼时却返回403错误

原来请求网页的过程中，忽略了很重要的一点，就是请求头

我们在浏览器检查元素中把network中的请求头复制出来，添加到请求函数中

import requests
from requests.exceptions import RequestException


def one_page_code(url):

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CH-Lee

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【反爬机制】requests请求返回403，我直接放弃了。

爱吃饼干的小白鼠的博客

11-12

3940

大家好，我自以为自学了一点爬虫就了不起了，没想到它给了我当头一棒。403状态码可以简单的理解为没有权限访问此站。该状态表示服务器理解了本次请求但是拒绝执行该任务.这就是绝对多数网站的。那我们简单了解一下。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度，防止静态爬虫使用ajax技术动态加载页面。

Python爬虫实战：实时抓取猫眼电影票房数据的终极指南

最新发布

2201_76125261的博客

05-10

350

使用 Playwright 模拟浏览器访问猫眼电影抓取实时票房排行榜前列电影数据自动存储为 CSV + SQLite可视化票房数据趋势。

参与评论您还未登录，请先登录后发表或查看评论

使用requests 请求https 报403

shylcok的博客

07-15

6168

requests 请求https 报403

403 Client Error: HTTP Forbidden for url:

ml7yuwanhanhua的博客

04-15

241

403 Client Error: HTTP Forbidden for url:异常问题解决

python requests爬虫返回403错误？加了所有特征的请求头+代理也解决不了的问题处理

ellija的博客

06-01

1万+

【疑惑】：使用python的requests库发起get或post请求返回403代码错误，使用postman发起请求发现状态码竟然成功了。这是什么原因？首先排除ip问题，ip有问题的话postman也访问不了。难道是headers出现了问题吗，通过对比发现也不是headers的问题。那就奇了怪了？【解疑】：其实遇到这种情况大概率是遇到了“原生模拟浏览器 TLS/JA3 指纹的验证”，浏览器和postman都有自带指纹验证，而唯独requests库没有。这就让反爬有了区分人为和爬虫的突破口。

python requests请求失败_用python的requests 请求tmall的详情的一个请求报403错误的问题...

weixin_42445886的博客

12-24

485

importrequestsdefget_content(url):s= requests.get(url, headers=headers)content= s.content.decode('gbk')print(content)returncontentif __name__=="__main__":headers={"Host":"mdskip.taobao.com","Accept": ...

安装requests库以及超时响应403

weixin_44055022的博客

11-26

801

安装requests库 1、win + r 打开窗口命令并输入cmd命令，并点击确定 2、在窗口输入pip install requests，就可以安装requests 库了如果在安装的过程中in _error_catcher raise ReadTimeoutError(self._pool, None, “Read timed out.”) pip._vendor.urllib3.exc...

解决爬虫浏览器中General显示 Status Code:304 NOT MODIFIED，而在requests请求时出现403被拦截的情况。...

qq_40659982的博客

02-02

2673

解决爬虫浏览器中General显示 Status Code:304 NOT MODIFIED，而在requests请求时出现403被拦截的情况。在此，非常感谢 “完美风暴4” 的无私共享经验的精神在Python爬虫爬取网站时，莫名遇到浏览器中General显示Status Code:304 NOT MODIFIED而在requests请求...

python爬虫入门练习：正则表达式爬取猫眼电影TOP100排行榜，openpyxl保存本地excel文件

菜鸟的学习日记

07-08

1178

使用requests爬取猫眼电影TOP100排行榜网址：https://maoyan.com/board/4 方法：requests.get()获取网页，正则表达式re.findall匹配目标内容目标：爬取猫眼电影TOP100排行榜，排名，电影名称，主演，上映时间，评分内容，并保存至本地文件思路：为爬取目标，大体上可分为三步，登录-爬取-保存第一步： import requests imp...

python实现爬取猫眼并初步分析数据

iva_brother的博客

06-11

2355

本文通过爬取猫眼top100，利用Request请求库和4种内容提取方法：正则表达式、lxml+xpath、Beatutifulsoup+css选择器、Beatutifulsoup+find_all爬取网页内容，熟悉常用的这些提取方法。爬取目标从网页中提取出top100电影的电影名称、封面图片、排名、评分、演员、上映国家/地区、评分等信息，并保存为csv文本文件。根据爬取结果，进行简单...

猫眼电影排行榜前100爬取案例学习笔记

RockyLiu1992的博客

04-27

2180

最近在学习崔庆才老师著作的《python3 网络爬虫开发实战》，对爬取猫眼排名榜前100电影的讲解案例，产生一些小想法，结合pandas 在数据分析方面的应用，给出以下学习笔记，作为rockyliu学习爬虫成长道路上的one small step. 话不多说，先汇总本次爬取的目标： 1）获取猫眼排名榜前100电影 2）获取前100电影图片存放在本地 3）获取前100电影的英文名称 4）通...

Python爬虫，猫眼网站(可进行二次请求)

12-21

猫眼网站一、项目要求（1）保存100部电影的信息，排名，电影名称，演员，上映时间，评分（2）抓取猫眼网站数据并保存到mysql数据库，存储xml，execl文件并统计排分（3）点击任意一个电影，爬取跳转网页上的介绍、演职人员，奖项，图集信息，并且保存到本地（4）统计演员演的电影数目，最后以图表形式输出二、分析目标网站结构目标网址：https://maoyan.com/board/4 1）通过观察网页结构，发现一页只出现十部电影，每次翻页就会改变请求网页里面的offset值 https://maoyan.com/board/4?offset=0 https://maoyan

python访问网页被拒_Python Requests.get访问网页403错误

weixin_39614228的博客

12-09

4245

Pycharm 2018.1, Python 3.6, 通过Pycharm的File->Settings->Plugins搜索Requests安装上去。import requestsr = requests.get(这段代码尝试访问雪球网站，结果会返回403错误代码表示forbidden。因为没加上http请求header，估计时雪球网站有一定的反爬虫策略。于是我构造了一个如下的hea...

（伪）Python爬取猫眼电影（反反爬虫过程中遇到的坑）

Enderman_xiaohei的博客

11-17

4523

Python爬取猫眼电影 1.打开一个猫眼电影的URL，例如本月的较火的电影《毒液：致命守护者》http://maoyan.com/films/42964 直接F12，查看审核元素，发现上面的数据都是方框无法正确显示选择Network，刷新之后，选择第一个42964，查看右侧Preview 也是无法显示，这就是反爬虫策略，主要爬取网上也有很多教程可供参考，我就贴几个他们都写得非常好，...

【python爬虫】—爬虫报错：403访问太过频繁，禁止访问

热门推荐

tianbiancai1的博客

08-18

1万+

@【python爬虫】—爬虫报错：403访问太过频繁，禁止访问前言使用requests包建立访问时，正常的访问状态会返回状态代码200，但是在爬一些网站时，经常会返回403（众所周知的404代表的是网站disappear了。而403代表我们当前的IP被forbidden了）。这是因为在短时间内直接使用Get获取大量数据，会被服务器认为在对它进行攻击，所以拒绝我们的请求，自动把电脑IP封了。因此，这里介绍两种解决办法。方案一、请求页面的是添加headers 我们平时使用浏览器下载的图片或者是文

python+requests 之常见错误码（203、403）分析

wdlnancy的专栏

02-25

6580

1、模拟登陆公司某系统，返回203错误码，并提示：please login first,是因为cookie不正确，刚开始使用如下代码获取cookie： def getCookie(self): cookie = requests.cookies.RequestsCookieJar() cookie.set('cookie-name','cookie-value'...

【创新实训】爬虫开发记录（2）：爬取猫眼详情页

subzero_273的博客

06-14

480

爬取目标爬取电影的name，nameFrn，cover，types，country，runtime，releaseDate，year，summary，directors，stars，rating，rateNum 猫眼字体反爬在电影详情页中，无法直接爬到评分和评分人数。原因是在style中通过.woff文件对字体进行了加密，而且每次刷新网页，都会加载一个新的woff文件以及新的文字编码将woff文件下载下来后，转为otf文件通过http://fontstore.baidu.com/stati

猫眼top100爬虫遇到的问题

qq_45604854的博客

06-29

1002

这次爬虫中遇到的问题主要是分页爬取时无法正确获取目标页面的html，会跳至获取首页的html，导致只能爬取部分页面的数据，不能得到完整的100条数据。网上查询的方法就是设置headers伪装浏览器或者多线程爬取，但都解决不了问题。经过一段时间的尝试，终于发现了解决方法：需要设置cookie，把cookie添加进headers就可以防止页面跳转，正确获取目标页面的html ...

python爬虫 403 Forbidden 解决方法

weixin_34259559的博客

08-21

1045

模拟浏览器打开网页: headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER' } res = requests.get(url.f...

用python爬取中国21世纪高票房电影前20，给出完整的代码

03-25

<think>嗯，用户想要用Python爬取中国21世纪高票房电影前20名的完整代码。首先，我得确定可靠的数据源。常见的电影票房数据网站有猫眼、艺恩、灯塔专业版等，但有些可能有反爬机制。比如猫眼的数据相对容易获取，但需要检查是否有反爬措施，比如请求头验证或者IP限制。接下来，用户需要的是完整的代码示例，所以得确保代码结构清晰，包含必要的部分：发送请求、解析数据、数据存储和可视化。可能需要用到requests库发送HTTP请求，BeautifulSoup或lxml解析HTML，或者直接解析JSON数据，如果网站提供的话。比如有些网站的数据是通过Ajax加载的，直接找接口可能更方便。然后，引用部分提到的信息中，用户之前有参考爬取全球电影排名的代码，可能需要类似的思路，修改URL和解析逻辑。引用[1]提到修改中国大学排名的代码来爬取电影数据，所以可能需要调整选择器和参数。引用[4]展示了使用matplotlib和seaborn进行可视化，这部分应该包含在代码里，生成票房前10或前20的图表。关于反爬措施，引用[4]提到了多线程或异步抓取，但针对单个请求可能不需要太复杂，不过加上User-Agent头和可能的代理设置是基础。此外，可能需要处理动态加载的内容，这时候可以考虑用selenium，但会增加复杂度，如果静态请求能获取数据就更好了。数据存储部分，用户可能需要保存到CSV文件，方便后续分析。代码中需要处理字段如电影名称、票房、上映年份、地区、类型等，确保解析正确。例如，使用CSS选择器或正则表达式提取所需数据。测试代码时，要确保网站结构没有变化，否则选择器可能会失效。另外，票房数据的单位需要统一，比如转换成数值类型，方便排序和可视化。最后，注意事项部分需要提醒用户遵守网站规则，设置延迟避免被封，以及数据更新可能导致结果变化。可能还需要处理异常，比如网络错误或数据不存在的情况，但示例代码可能为了简洁省略这些，但用户在实际使用时需要考虑。</think>根据您对21世纪中国高票房电影数据的爬取需求，结合引用内容中的技术要点，我将为您提供完整的Python爬虫解决方案，包含数据清洗与可视化功能。 ### 一、完整爬虫代码实现 ```python import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 配置请求参数 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } def get_movie_data(): """爬取票房数据主函数""" url = 'https://piaofang.maoyan.com/rankings/year' try: response = requests.get(url, headers=headers, timeout=10) response.encoding = 'utf-8' soup = BeautifulSoup(response.text, 'html.parser') movies = [] # 解析前20条记录 for item in soup.select('.row')[1:21]: # 修改选择器以匹配最新页面结构 name = item.select_one('.title').text.strip() box_office = item.select_one('.num').text.strip() year = item.select_one('.year').text.strip() region = item.select_one('.area').text.strip() genre = item.select_one('.genre').text.strip() movies.append({ '电影名称': name, '票房（亿）': float(box_office.replace('亿', '')), '上映年份': year, '地区': region, '类型': genre }) return movies except Exception as e: print(f'爬取失败: {str(e)}') return [] # 数据清洗与存储 def process_data(movies): df = pd.DataFrame(movies) df.sort_values(by='票房（亿）', ascending=False, inplace=True) df.to_csv('china_top20_movies.csv', index=False, encoding='utf_8_sig') return df # 可视化分析 def visualize_data(df): plt.figure(figsize=(12, 8)) sns.barplot(x='票房（亿）', y='电影名称', data=df, palette='viridis') plt.title('21世纪中国电影票房Top20', fontsize=14) plt.xlabel('票房（亿元）', fontsize=12) plt.ylabel('电影名称', fontsize=12) plt.xticks(rotation=45) plt.tight_layout() plt.savefig('top20_boxoffice.png', dpi=300) plt.show() if __name__ == '__main__': movie_data = get_movie_data() if movie_data: df = process_data(movie_data) visualize_data(df) ``` ### 二、技术要点说明 1. **反爬措施处理**： - 使用标准浏览器UA头模拟正常访问[^4] - 设置超时限制防止长时间无响应 - 建议添加随机延迟（可增加`time.sleep(random.uniform(1,3))`） 2. **数据清洗流程**： ```python # 示例数据清洗扩展 df['票房（亿）'] = df['票房（亿）'].apply(lambda x: float(x) if isinstance(x, str) else x) df = df[df['地区'].str.contains('中国')] # 确保中国地区电影 ``` 3. **可视化增强建议**： ```python # 可添加的交互式可视化（需安装plotly） import plotly.express as px fig = px.treemap(df, path=['上映年份', '电影名称'], values='票房（亿）', color='票房（亿）', hover_data=['类型']) fig.show() ``` ### 三、注意事项 1. 需定期检查目标网站DOM结构变化[^1] 2. 遵守robots.txt协议，建议设置1-2秒请求间隔[^4] 3. 票房数据可能包含实时更新，结果可能随时间变化[^3]