Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据,用法简单,但是效率比正则慢。
创建soup对象:
>>> import requests
>>> from bs4 import BeautifulSoup
>>> html = requests.get('http://bbs.tianya.cn/post-funinfo-7840824-1.shtml')
>>> soup_obj = BeautifulSoup(html.text, 'lxml')
>>> type(soup_obj)
<class 'bs4.BeautifulSoup'>
了解soup_obj
查看标题:
>>> soup_obj.title
<title>奇葩遍地走,狗血满天飞。但为情怀故,从来不忍黑:图解《天地豪情》_娱乐八卦_论坛_天涯社区</title>
标题内容:
>>> soup_obj.title.string
'奇葩遍地走,狗血满天飞。但为情怀故,从来不忍黑:图解《天地豪情》_娱乐八卦_论坛_天涯社区'
p = soup_obj.p
head = soup_obj.head
print(p)
<p class="crumbs"><a href="http://bbs.tianya.cn">天涯论坛</a> > <em><a href="/list-funinfo-1.shtml">娱乐八卦</a></em>