爬取百度首页的信息，添加headers参数并处理数据乱码。

最新推荐文章于 2022-08-22 08:45:00 发布

香蕉神经

最新推荐文章于 2022-08-22 08:45:00 发布

阅读量399

点赞数

分类专栏： Python爬虫编程文章标签： python

本文链接：https://blog.csdn.net/qq_52010626/article/details/119804333

版权

Python爬虫编程专栏收录该内容

32 篇文章 2 订阅

订阅专栏

该博客主要介绍了如何使用Python进行网络爬虫，针对百度首页信息的抓取，添加了headers参数以模拟浏览器行为。同时，为了解决可能出现的数据乱码问题，采用了尝试性编码转换的方法，先尝试将数据从ISO-8859-1转为UTF-8，如果失败则再尝试转为GBK。这种方法能有效防止因未知编码导致的乱码错误。

摘要由CSDN通过智能技术生成

1 需求

爬取百度首页的信息，添加headers参数并处理数据乱码。

2 代码实现

import requests
import re


headers = {"user-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}
url = 'https://www.baidu.com/'
res = requests.get(url=url, headers=headers).text
try:
    res = res.encode('ISO-8859-1').decode('utf-8')
except:
    try:
        res = res.encode('IOS-8859-1').decode('gbk')
    except:
        res = res
print(res)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

香蕉神经

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取百度首页的信息，添加headers参数并处理数据乱码。

1 需求爬取百度首页的信息，添加headers参数并处理数据乱码。2 代码实现import requestsimport reheaders = {"user-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:91.0) Gecko/20100101 Firefox/91.0'}url = 'https://www.baidu.com/'res = requests.get(url=url, headers=headers).tex
复制链接

扫一扫