BeautifulSoup库的基本使用说明-01

最新推荐文章于 2024-08-12 23:17:41 发布

myKernel

最新推荐文章于 2024-08-12 23:17:41 发布

阅读量2.9k

点赞数 1

分类专栏： Python Linux

本文链接：https://blog.csdn.net/cnmilan/article/details/9139721

版权

Linux 同时被 2 个专栏收录

147 篇文章 0 订阅

订阅专栏

Python

83 篇文章 0 订阅

订阅专栏

BeautifulSoup文档地址：http://www.crummy.com/software/BeautifulSoup/bs4/doc/

以例子说明BeautifulSoup库的基本使用：
<a href="http://huati.weibo.cn/ht?k=%E6%B2%A1%E8%84%96%E5%AD%90%E7%A5%9E%E5%85%BD&from=rank" class="k">神兽</a>
<a href="http://huati.weibo.cn/ht?k=Balabala&from=rank" class="k">Blabla</a>

... ...

0.将HTML转换成BeautifulSoup的格式类型

text = urllib2.urlopen(url).read()
soupText = BeautifulSoup(text.strip())

1.获取标签名为a并且class="k"的HTML内容(获取单条)

strs=str(soupText.find('a',{'class':'k'})) #查询单个结果

返回：<a href="http://huati.weibo.cn/ht?k=%E6%B2%A1%E8%84%96%E5%AD%90%E7%A5%9E%E5%85%BD&from=rank" class="k">神兽</a>

2.获取标签名为a并且class="k"的HTML内容(获取全部)

strs=soupText.findAll(name='a', attrs={'class':'k'}) #查询全部匹配结果
for singleRes in strs:
    print 'No.',i,': ',singleRes.string #依次取出不同匹配内容

[注意]返回结果与1.中返回结果类似，但是为全部满足条件的内容

3.获取一个标签的文本值(text)

print 'No.',i,': ',singleRes.string  #输出a标签对应的文本值

返回：神兽
[注意]singleRes.text 亦可

4.获取标签的属性值(例如获取"href"对应的内容)

print singleRes['href']  #获取标签a中href对应值

返回：http://huati.weibo.cn/ht?k=.......

myKernel

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录