使用BeautifulSoup解析html页面

1、有很多开源库以及python自动的htmlparser库都可以解析html,简单的功能,用哪个都一样,看个人习惯,此处简单介绍一下BeautifulSoup的用法,详细的用法可以参考官方文档[url]http://www.crummy.com/software/BeautifulSoup/[/url]
2、去上面的网址下载、解压安装,都有说明, 我在python2.7的环境下面安装soup4一直报错,最后只好换成soup3的版本,具体原因没查明
3、代码示例

from BeautifulSoup import BeautifulSoup
import urllib2
content = urllib2.urlopen(url).read()
soup = BeautifulSoup(content)
构造soup对象之后,就可以按照soup的语法搜索标签了
sub_soup = soup.find(attrs={"class" : re.compile("a_con_text cont")})
sub_soup = soup.find(attrs={"class" : "t_f"})
sub_content = sub_soup.getText()
这个getText返回的是sub_soup标签之内的所有内容以及子标签的内容,不包括标签
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值