BeautifulSoup是一个html解析器,其主要功能是将html解析成树的结构,关于具体的用法官网介绍(http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html)了很多,在这里不在赘述。
在用BeautifulSoup解析html过程中遇到几个问题需要注意下:
1、解析html需要添加源文件字符集
url = 'http://newhouse.sh.fang.com/house/saledate/param_sd201011_or_pa1.htm' request = urllib2.Request(url) request.add_header('Accept-encoding', 'gzip') response = urllib2.urlopen(request,timeout=20) buf = StringIO( response.read()) f = gzip.GzipFile(fileobj=buf) html = f.read() soup=BeautifulSoup(html,from_encoding="gb18030")
其中使用BeautifulSoup解析html的时候最好添加f