BeautifulSoup对象
1、属性值
soup.prettify()
返回一个字符串: html网页标准的缩进格式的结构输出。
soup.title
返回title Tag及其之间的内容。
<title>The Dormouse's story</title>
- soup.title.name
u'title'
- soup.title.string
u'The Dormouse's story'
- soup.title.parent
查看上级Tag,及其包含的内容.
<head>
<title>
The Dormouse's story
</title>
</head>
soup.p
通过.取属性的方式, 只能获得当前名字的第一个Tag
返回p Tag及其之间的内容。
<p class="title"><b>The Dormouse's story</b></p>
- soup.p[‘class’]
u'title'
soup.find_all(‘a’)
从文档中找到所有标签的Tag对象:
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
soup.find(id=‘link3’)
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
soup.get(‘href’)
从文档中找到所有标签的链接
for link in soup.find_all('a'):
print(link.get('href'))