python学习问题总结之UnicodeDecodeError

最新推荐文章于 2024-06-21 10:51:21 发布

飞霖雨

最新推荐文章于 2024-06-21 10:51:21 发布

阅读量369

点赞数

分类专栏： python学习问题总结文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34130509/article/details/89202649

版权

python学习问题总结专栏收录该内容

6 篇文章 0 订阅

订阅专栏

问题内容：'utf-8' codec can't decode byte 0xd6 in position 20: invalid continuation byte

相关代码：

#科技部数据获取
def get_url(a,b):
    for i in range(a,b):
        if a == 0:
            url = 'http://www.most.gov.cn/tztg/index.htm'
        else:
            url = 'http://www.most.gov.cn/tztg/index_'+str(i)+'.htm'
    return url

def get_page_href(url):
    page_respon = requests.get(url).content.decode('utf-8')
    page_tree = etree.HTML(page_respon)
    page_href = page_tree.xpath('//tr/td/a/@href')
    page_href = 'http://www.most.gov.cn/tztg'+page_href
    print(page_href)


url = get_url(0,2)
get_page_href(url)

爬虫的时候报了这个错误，网上查了一下，问题出在编码格式上，不是每一个页面的编码格式都是utf-8，所以要确定网页的编码格式再进行解码。

通用的浏览器编码查询方式是：F12打开开发者工具，进入console，键入"document.charset" 即可查看网页的编码方式。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python学习问题总结之UnicodeDecodeError

问题内容：'utf-8' codec can't decode byte 0xd6 in position 20: invalid continuation byte相关代码：#科技部数据获取def get_url(a,b): for i in range(a,b): if a == 0: url = 'http://www.most.go...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。