Python爬虫遇到的问题(一)—关于utf-8,gbk
遇到的问题
最初,在爬取浙江工商大学信息网时,使用了以下代码:
from bs4 import BeautifulSoup
import urllib.request
def get_html(url):
page = urllib.request.urlopen(url)
htmlcode = page.read() #这里没有进行任何操作
return htmlcode
url = 'http://www.zjgsu.edu.cn/news/'
html = get_html(url)
soup = BeautifulSoup(html,'lxml') #使用lxml
print(soup)
发现BeautifulSoup解析html后内容缺失,而后做了如下更改:
from bs4 import BeautifulSoup
import urllib.request
def get_html(url):
page = urllib.request.urlopen(url)
htmlcode = page.read() #这里没有进行任何更改
return htmlcode
url = 'http://www.zjgsu.edu.cn/news/'
html = get_html(url)
soup = BeautifulSoup(html,'html.parser') #使用html.parser
print(soup)
发