python，使用requests，BeautifulSoup读取HTML中文发生乱码

最新推荐文章于 2024-05-08 16:31:25 发布

coolzen

最新推荐文章于 2024-05-08 16:31:25 发布

阅读量1.8k

点赞数

分类专栏：网页处理文章标签： python 网页处理爬虫

本文链接：https://blog.csdn.net/coolzen/article/details/82716195

版权

网页处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

发生读取HTML页面中文乱码

# 简洁地处理HTML文件
import bs4
import requests
import logging,sys


print(sys.getfilesystemencoding())
#print('Html is encoding by : %',chardet.detect(GetHtml(url)))


logging.basicConfig(level=logging.DEBUG, format='%(message)s')

res = requests.get(url)
res.encoding = 'utf-8' #需要添加这一行，告知html文件解码方式
res.raise_for_status()
myBS4 = bs4.BeautifulSoup(res.text)

logging.debug(type(myBS4))

elems = myBS4.select('input[type="button"]')
#print(str(elems[0]['value']))
###关键属性：attrs，获得该元素的属性字典

print(elems[0].attrs)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

coolzen

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python，使用requests，BeautifulSoup读取HTML中文发生乱码

发生读取HTML页面中文乱码# 简洁地处理HTML文件import bs4import requestsimport logging,sysprint(sys.getfilesystemencoding())#print('Html is encoding by : %',chardet.detect(GetHtml(url)))logging.basicConfig(l...
复制链接

扫一扫