Requests库爬取页面乱码问题（以脚本之家为例）

最新推荐文章于 2024-07-12 16:58:11 发布

StarLord007

最新推荐文章于 2024-07-12 16:58:11 发布

阅读量1.7k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/q1694222672/article/details/82807926

版权

在爬取脚本之家的Python文章列表时遇到中文乱码问题，原因是默认字符集与网页实际字符集不符。解决方法是通过检查response对象的encoding属性，发现网站可能使用的是GB2312或UTF-8编码。采用正确编码方式如UTF-8转换，能有效解决乱码问题。

摘要由CSDN通过智能技术生成

爬取脚本之家python文章列表，发现中文乱码

import requests
from bs4 import BeautifulSoup


url = 'https://www.jb51.net/list/list_97_1.htm'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html,'lxml')
txt = soup.select('div.artlist dl dt')
print(txt)
href_list = []
base_url = 'https://www.jb51.net'

for i in txt:
    title = i.select('a')[0]['title']
    href = base_url + i.select('a')[0]['href']
    print(href,title)

-------------------------------------------------------------------------------------------------------------
https://www.jb51.net/article/147721.htm pythonÊ¹ÓÃ¶à½ø³ÌµÄÊµÀýÏê½â
https://www.jb51.net/article/147712.htm Anaconda2 5.2.0°²×°Ê¹ÓÃÍ¼ÎÄ½Ì³Ì
https://www.jb51.net/article/147710.htm win10ÏµÍ³ÏÂAnaconda3°²×°ÅäÖÃ·½·¨Í¼ÎÄ½Ì³Ì
https://www.jb51.net/article/147707.htm Window 64Î»ÏÂpython3.6.2»·¾³´î½¨Í¼ÎÄ½Ì³Ì
https://ww

最低0.47元/天解锁文章

StarLord007

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Requests库爬取页面乱码问题（以脚本之家为例）

爬取脚本之家python文章列表，发现中文乱码import requestsfrom bs4 import BeautifulSoupurl = 'https://www.jb51.net/list/list_97_1.htm'response = requests.get(url)html = response.textsoup = BeautifulSoup(html,'lxm...
复制链接

扫一扫

专栏目录