Python爬虫初学:报错1:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb'……

大家好,我是庞老板咩,一名浙江大学动力工程20级推免生,最近开始自学Python。这是我的第一篇博客,很高兴可以在CSDN这个平台和大家分享交流^ ^

首先,这是一段我初学爬虫时的代码:

import urllib.request


def load_baidu():
    url = "http://www.baidu.com"
    request = urllib.request.Request(url)
    response = urllib.request.urlopen(url)
    print(response)
    data = response.read().decode("utf-8")

    request_headers = request.headers
    print(request_headers)
    with open("02header.html","w")as f:
        f.write(data)

    # print(response.headers)

load_baidu()

这段代码运行后会出现如下报错:

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 33874: illegal multibyte sequence

此时我们注意到第7行的代码:

data = response.read().decode("utf-8")

补充:我们爬取网页返回的网络数据流的编码就是网页的编码,需要使用decode解码成unicode编码。这里已经通过decode,存储到data变量中。这里介绍一下,MAC电脑的默认解码方式为utf-8,Windows默认解码方式为gbk。
最后,我们使用with open写入html时候,没有使用encoding指定file文件的解码格式,这样的话,python解释器会用gbk编码去解析我们刚刚的网络数据流data,然而data此时已经是decode过的unicode编码,这样的话就会导致解析不了,出现开头运行的错误。这里,我们进行指定:

with open("02header.html","w",encoding="utf-8")as f:
	f.write(data)

并运行,可以看到,报错解除了:在这里插入图片描述
最后,补充给初学者Python中with open() as f:的常见用法:
1.常见的读写操作:

with open(r'filename.txt') as f:
   data_user=pd.read_csv(f)  #文件的读操作
with open('data.txt', 'w') as f:
   f.write('hello world')  #文件的写操作

2.相关参数:

r:	以只读方式打开文件。文件的指针将会放在文件的开头。这是**默认模式**。
rb: 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。
r+: 打开一个文件用于读写。文件指针将会放在文件的开头。
rb+:以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。
w:	打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
wb:	以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
w+:	打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
wb+:以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
a:	打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
ab:	以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
a+:	打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。
ab+:以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。

3.file对象的属性:

file.read([size])   将文件数据作为字符串返回,可选参数size控制读取的字节数
file.readlines([size])   返回文件中行内容的列表,size参数可选
file.write(str)   将字符串写入文件
file.writelines(strings)   将字符串序列写入文件
file.close()   关闭文件
file.closed	表示文件已经被关闭,否则为False
file.mode	Access文件打开时使用的访问模式
file.encoding	文件所使用的编码
file.name	文件名
file.newlines	未读取到行分隔符时为None,只有一种行分隔符时为一个字符串,当文件有多种类型的行结束符时,则为一个包含所有当前所遇到的行结束的列表
file.softspace	为0表示在输出一数据后,要加上一个空格符,1表示不加。这个属性一般程序员用不着,由程序内部使用
  • 6
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值