写爬虫程序第一步要解决掉额问题就是确定目标网页的编码格式。
那么,如何获取网站的编码格式呢 ?
def getList(url):
html = urllib.request.urlopen(url).read() # 得到html
return html.decode('UTF-8') # 解码html
html = getList("https://price.pcauto.com.cn") # 获得源码
请按照以下2个步骤获取:
1. 请打开目标网站,按F12进入网页卡发者工具;
2. 切换选项卡console,键盘输入"document.charset" ,即可看到该网页的编码格式"UTF-8"。