Python爬虫遇到的问题（一）---关于utf-8,gbk

最新推荐文章于 2024-08-07 22:04:37 发布

FCinPJ

最新推荐文章于 2024-08-07 22:04:37 发布

阅读量3.5k

点赞数 2

分类专栏： python爬虫文章标签： python 爬虫 lxml gbk

本文链接：https://blog.csdn.net/FCinPJP/article/details/82872015

版权

本文讲述了在Python爬虫中遇到的编码问题，主要讨论了在处理浙江工商大学信息网时，utf-8与gbk编码导致的内容缺失、乱码及UnicodeDecodeError。通过尝试不同解析库和解码方式，最终确定gbk编码配合lxml库可以成功解决爬取过程中遇到的问题。

摘要由CSDN通过智能技术生成

Python爬虫遇到的问题（一）—关于utf-8,gbk

遇到的问题

最初，在爬取浙江工商大学信息网时，使用了以下代码：

from bs4 import BeautifulSoup
import urllib.request

def get_html(url):
    page = urllib.request.urlopen(url) 
    htmlcode = page.read() 	#这里没有进行任何操作
    return htmlcode

url = 'http://www.zjgsu.edu.cn/news/' 
html = get_html(url) 
soup = BeautifulSoup(html,'lxml')  #使用lxml

print(soup)

发现BeautifulSoup解析html后内容缺失，而后做了如下更改:

from bs4 import BeautifulSoup
import urllib.request

def get_html(url):
    page = urllib.request.urlopen(url) 
    htmlcode = page.read() 	#这里没有进行任何更改
    return htmlcode

url = 'http://www.zjgsu.edu.cn/news/' 
html = get_html(url) 
soup = BeautifulSoup(html,'html.parser')  #使用html.parser

print(soup)

发