写的爬虫代码爬取百度页面,存成txt格式的或者直接输出下面代码都是正常的,不会出现乱码情况,但是一旦存成html之后打开就出现中文乱码。 from urllib.request import urlopen url = "http://www.baidu.com" resp = urlopen(url) with open("mybaidu.html",mode="w") as f: f.write(resp.read().decode("utf-8")) print("over!")
解决办法:
代码改写成下面这种形式可以成功的加载出来没有乱码的html文件
#-*- coding: utf-8 -*- from urllib.request import urlopen url = "http://www.baidu.com" resp = urlopen(url) #print(resp.read().decode("utf-8")) with open("mybaidu.html",mode="wb") as f: f.write(resp.read()) print("over!")