Python爬虫学习笔记(实例：解决网站对爬虫的审查)

最新推荐文章于 2021-08-13 17:42:08 发布

二叉叔

最新推荐文章于 2021-08-13 17:42:08 发布

阅读量300

点赞数

分类专栏： Python爬虫文章标签： python爬虫解决网站阻止爬虫程序

本文链接：https://blog.csdn.net/qq_33360009/article/details/104008232

版权

Python爬虫专栏收录该内容

42 篇文章 2 订阅

订阅专栏

由于一些网站会识别并阻止爬虫程序爬取网页的信息，所以需要修改请求报文的头部信息，模拟浏览器访问

实例：爬取亚马逊中国的商品页面信息：

https://www.amazon.cn/dp/B0785D5L1H/ref=sr_1_1?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&keywords=%E6%9E%81%E7%AE%80&qid=1579164551&sr=8-1

import requests

url = 'https://www.amazon.cn/dp/B0785D5L1H/ref=sr_1_1?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&keywords=%E6%9E%81%E7%AE%80&qid=1579164551&sr=8-1'
try:
    kv = {'user-agent':'Mozilla/5.0'} #关键：模拟浏览器，解决网站审查禁止爬虫的问题（503,403。。）
    r=requests.get(url, headers = kv) #关键：加入头部信息
    r.raise_for_status() #检查状态
    r.encoding = r.apparent_encoding #设置编码
    print(r.text) #打印网页源码信息
except:
    print("爬取失败")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

二叉叔

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫学习笔记(实例：解决网站对爬虫的审查)

由于一些网站会识别并阻止爬虫程序爬取网页的信息，所以需要修改请求报文的头部信息，模拟浏览器访问实例：爬取亚马逊中国的商品页面信息：https://www.amazon.cn/dp/B0785D5L1H/ref=sr_1_1?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&keywords=%E6%9E%81%E7...
复制链接

扫一扫