这是一个python库,用来处理html之类的文本内容
官网http://www.crummy.com/software/BeautifulSoup/#Download
这个是中文文档
这是4的版本的英文文档
它有两个版本。一个是BeautifulSoup,另外一个是BeautifulSoup4
安装方法官网都有。
下面是BeautifulSoup的版本,不好用
from BeautifulSoup import BeautifulSoup
soup=BeautifulSoup(html)
len(soup)
<del>soup.contents[0].text</del>
html里面的文本,相当于innerText是用text来表示。
原版的不太好用,还是bs4版本比较好用。
from bs4 import BeautifulSoup
markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'
soup = BeautifulSoup(markup)
print soup.get_text()