BeautifulSoup
-
BeautifulSoup对象分为Tag,NavigableString,BeautifulSoup,Comment 。
-
Tag
- Soup.Tag。其中Tag 表示HTML中标签名,例如title,p,a,等。
print(soup.title)
BeautifulSoup技术 -
返回完整的标签内容,包括标签的属性,内容以及子标签。
-
相同标签有多个,只返回第一个。
-
Soup.name.获取文档树的标签名称。
print(Soup.name)
[document] -
soup.p.attrs返回标签p的所有属性
多值属性返回类型是list -
for link in soup.find_all(‘a’):
print(link.get(‘href’))
获取标签a的超链接 -
for a in soup.find_all(‘a’):
print(a.get_text())
获取文字内容
- Soup.Tag。其中Tag 表示HTML中标签名,例如title,p,a,等。
-
print(soup.title.string)或使用 print(str(soup.title.string))或print(unicode(soup.title.string))
BeautifulSoup技术 -
BeautifulSoup对象表示文档的的全部内容。解析网页,表示网页源码。
-
comment = Soup.b.string
print(comment)
读取注释内容 -
contents,children获取标签直接子节点,不同的是children返回一个迭代对象。
-
只有一个子标签(没有换行),获取子标签的节点内容,使用string输出;有多个子标签(换行算一个子标签)或输出none。
-
for content in soup.stripped_string:
print(unicode(content))
去除标签内容多余的空格,换行。 -
获取父亲节点parent,获取所有父亲节点:
for parent in content.parents:
print(parent) -
next_sibling获取下一个兄弟节点;previous.sibling获取上一个兄弟节点