问题描述
今天在教别人一些爬虫基础遇到一个从来没有出现过的现象:中文网站奇怪的乱码,经过多种编码尝试,均不能还原:
import requests
from bs4 import BeautifulSoup
res = requests.get('http://www.xinhuanet.com/')
bs = BeautifulSoup(res.text, 'lxml')
for item in bs.select('.dataList01 a')[:3]:
print(item.text)
å¨é¢æ·±åŒ–改é©æ´»é¡µâ€”—ä¸å¤®æ·±æ”¹å§”15次会议å¨çºªå½•
国务院第七次大ç£æŸ¥æ‹‰å¼€åºå¹• è¿é€Ÿè¡ŒåŠ¨,求真务实
决战åƒå±±ä¸‡å¼„é—´ï¼å¹¿è¥¿â€œæžè´«è§’è½â€æœ€åŽæ”»åšè®°
乱码第一反应就是其他中文乱码,尝试使用常用big5、gbk等尝试还原,总是得不到正确的编码格式:
for item in bs.select('.dataList01 a')[:3]