python学习问题总结之UnicodeDecodeError

  1. 问题内容:'utf-8' codec can't decode byte 0xd6 in position 20: invalid continuation byte

相关代码:

#科技部数据获取
def get_url(a,b):
    for i in range(a,b):
        if a == 0:
            url = 'http://www.most.gov.cn/tztg/index.htm'
        else:
            url = 'http://www.most.gov.cn/tztg/index_'+str(i)+'.htm'
    return url

def get_page_href(url):
    page_respon = requests.get(url).content.decode('utf-8')
    page_tree = etree.HTML(page_respon)
    page_href = page_tree.xpath('//tr/td/a/@href')
    page_href = 'http://www.most.gov.cn/tztg'+page_href
    print(page_href)


url = get_url(0,2)
get_page_href(url)

爬虫的时候报了这个错误,网上查了一下,问题出在编码格式上,不是每一个页面的编码格式都是utf-8,所以要确定网页的编码格式再进行解码。

通用的浏览器编码查询方式是:F12打开开发者工具,进入console,键入"document.charset" 即可查看网页的编码方式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值