BeautifulSoup库的基本使用说明-01

83 篇文章 0 订阅
BeautifulSoup文档地址:http://www.crummy.com/software/BeautifulSoup/bs4/doc/

以例子说明BeautifulSoup库的基本使用:
<a href="http://huati.weibo.cn/ht?k=%E6%B2%A1%E8%84%96%E5%AD%90%E7%A5%9E%E5%85%BD&amp;from=rank" class="k">神兽</a>
<a href="http://huati.weibo.cn/ht?k=Balabala&amp;from=rank" class="k">Blabla</a>

... ...

0.将HTML转换成BeautifulSoup的格式类型

text = urllib2.urlopen(url).read()
soupText = BeautifulSoup(text.strip())

1.获取标签名为a并且class="k"的HTML内容(获取单条)

strs=str(soupText.find('a',{'class':'k'})) #查询单个结果
返回:<a href="http://huati.weibo.cn/ht?k=%E6%B2%A1%E8%84%96%E5%AD%90%E7%A5%9E%E5%85%BD&amp;from=rank" class="k">神兽</a>


2.获取标签名为a并且class="k"的HTML内容(获取全部)

strs=soupText.findAll(name='a', attrs={'class':'k'}) #查询全部匹配结果
for singleRes in strs:
    print 'No.',i,': ',singleRes.string #依次取出不同匹配内容
[注意]返回结果与1.中返回结果类似,但是为全部满足条件的内容


3.获取一个标签的文本值(text)
print 'No.',i,': ',singleRes.string  #输出a标签对应的文本值

返回:神兽
[注意]singleRes.text 亦可

 

4.获取标签的属性值(例如获取"href"对应的内容)

print singleRes['href']  #获取标签a中href对应值
返回:http://huati.weibo.cn/ht?k=.......
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BeautifulSoup是一个Python的HTML/XML解析,可以用来从HTML或XML文件中提取数据。它的使用非常简单,以下是使用BeautifulSoup基本步骤: 1. 安装BeautifulSoup使用pip命令安装BeautifulSoup,如:pip install beautifulsoup4。 2. 导入:在Python脚本中导入BeautifulSoup,如:from bs4 import BeautifulSoup。 3. 获取HTML/XML文档:使用requests等获取网页的HTML代码,或者从本地文件中读取HTML/XML文档。 4. 创建BeautifulSoup对象:使用BeautifulSoup类创建一个BeautifulSoup对象,并传入HTML/XML文档和解析器(一般使用默认解析器)。 5. 解析文档:使用BeautifulSoup对象的方法,如find、find_all等,对文档进行解析,提取所需的数据。 6. 处理数据:对提取的数据进行处理和清洗,如去除空格、换行符等。 7. 存储数据:将获取的数据存储到本地文件或数据中,便于后续分析和使用。 下面是一个简单的示例代码,演示如何使用BeautifulSoup提取网页中的所有超链接: ```python import requests from bs4 import BeautifulSoup url = 'http://www.example.com/' r = requests.get(url) html_doc = r.text soup = BeautifulSoup(html_doc, 'html.parser') links = [] for link in soup.find_all('a'): links.append(link.get('href')) print(links) ``` 在这个示例代码中,首先使用requests获取了http://www.example.com/网页的HTML代码,然后使用BeautifulSoup解析该网页,并提取了所有超链接,并将它们存储在一个列表中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值