Python爬虫带header报错

最新推荐文章于 2023-02-02 09:54:32 发布

鹿上的程序媛

最新推荐文章于 2023-02-02 09:54:32 发布

阅读量3k

点赞数 4

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_41571224/article/details/108166157

版权

本文记录了在使用Python爬虫时遇到的两个错误及其解决方案：1. 由于User-Agent头部存在空格导致的InvalidHeader错误，通过删除空格解决；2. 对于SSL证书验证失败的问题，可以通过设置`verify=False`禁用验证或安装证书进行验证。

摘要由CSDN通过智能技术生成

Python爬虫带header报错解决方法

不得不说爬虫理论看起来简单，操作起来就报这个错那个错，今天记录一下爬百度贴吧报过的错，以及解决方案。

1.requests.exceptions.InvalidHeader: Invalid return character or leading space in header: User-Agent

这个报错是说request里面带了无效的header，无效的返回字符或者前面的几个字符有问题。

问题发生背景：我的header是直接从fiddler里面复制出来放到字典里面的，按道理应该是有效的，但是我发现复制出来的User-Agent第一个字符是空格，应该是pycharm无法识别这个空格，把第一个空格都删除就可以了

看一下抓包抓出来的User-Agent：
在这里插入图片描述
删除第一个空格就好了

2.requests.exceptions.SSLError: HTTPSConnectionPool(host=‘tieba.baidu.com’, port=443): Max retries exceeded with url: /f?kw=scrapy&ie=utf-8&pn=0 (Caused by SSLError(SSLError(“bad handshake: Error([(‘SSL routines’, ‘tls_process_server_certificate’, ‘certificate verify failed’)])”)))

这个