1、有很多开源库以及python自动的htmlparser库都可以解析html,简单的功能,用哪个都一样,看个人习惯,此处简单介绍一下BeautifulSoup的用法,详细的用法可以参考官方文档[url]http://www.crummy.com/software/BeautifulSoup/[/url]
2、去上面的网址下载、解压安装,都有说明, 我在python2.7的环境下面安装soup4一直报错,最后只好换成soup3的版本,具体原因没查明
3、代码示例
2、去上面的网址下载、解压安装,都有说明, 我在python2.7的环境下面安装soup4一直报错,最后只好换成soup3的版本,具体原因没查明
3、代码示例
from BeautifulSoup import BeautifulSoup
import urllib2
content = urllib2.urlopen(url).read()
soup = BeautifulSoup(content)
构造soup对象之后,就可以按照soup的语法搜索标签了
sub_soup = soup.find(attrs={"class" : re.compile("a_con_text cont")})
sub_soup = soup.find(attrs={"class" : "t_f"})
sub_content = sub_soup.getText()
这个getText返回的是sub_soup标签之内的所有内容以及子标签的内容,不包括标签