有些网站是本身是utf-8 , 有些则是gbk ,
但是之前试了decode发现不支持这样的操作
后来在大佬的帮助下得知:可以在获取网页源码的时候就顺便编码
即:req.encoding = '网页本身的编码'
然后再去操作搜索和划分 就OK
附上对于的Compilation Error页面(GBK编码)的转化和获取;(直接获取会出现拉丁文)
def getCE(self,runID):
ce_url = 'http://acm.hdu.edu.cn/viewerror.php?rid='+str(runID)
req = self.session.get(ce_url)
req.encoding = 'gbk'
soup = BeautifulSoup(req.text , 'lxml')
soup = soup.find('pre').text
print(soup)