使用bs4获取网页时候，如何处理爬到页面内中文变成拉丁文问题

最新推荐文章于 2023-03-08 21:33:29 发布

Kelisita

最新推荐文章于 2023-03-08 21:33:29 发布

阅读量623

点赞数

分类专栏： Python旅途

本文链接：https://blog.csdn.net/qq_33638791/article/details/53101262

版权

Python旅途专栏收录该内容

35 篇文章 0 订阅

订阅专栏

有些网站是本身是utf-8 , 有些则是gbk ，

但是之前试了decode发现不支持这样的操作

后来在大佬的帮助下得知：可以在获取网页源码的时候就顺便编码

即：req.encoding = '网页本身的编码'

然后再去操作搜索和划分就OK

附上对于的Compilation Error页面（GBK编码）的转化和获取；（直接获取会出现拉丁文）

    def getCE(self,runID):
        ce_url = 'http://acm.hdu.edu.cn/viewerror.php?rid='+str(runID)
        req = self.session.get(ce_url)
        req.encoding = 'gbk'
        soup = BeautifulSoup(req.text , 'lxml')
        soup = soup.find('pre').text
        print(soup)