Beautifulsoup的用法

#coding:utf-8
from bs4 import BeautifulSoup
import re

doc = ['<html><head><title>Page title</title></head>',
       '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.</p>',
       '<p id="secondpara" align="blah">This is paragraph <b>two</b>.</p>',
       '</html>']
soup = BeautifulSoup(''.join(doc))

# <html>
#  <head>
#   <title>
#    Page title
#   </title>
#  </head>
#  <body>
#   <p id="firstpara" align="center">
#    This is paragraph
#    <b>
#     one
#    </b>
#    .
#   </p>
#   <p id="secondpara" align="blah">
#    This is paragraph
#    <b>
#     two
#    </b>
#    .
#   </p>
#  </body>
# </html>
tieleTag = soup.html.head.title

print tieleTag          
#<title>Page title</title>
print tieleTag.string  
#Page title
print len(soup('p'))                     
#获取p标签的个数
print soup.find('p',align="center")     
#获取p标签align属性为center的语句
print soup('p',align="center")[0]['id']  
#获取解析后第一个p标签的id
print soup.find('p').b.string   #查找p标签的b标签的内容
print soup('p')[1].b.string     #查找p标签的第二个b标签的内容
tieleTag['id'] = 'theTitle'     #修改soup

soup.p.extract()                #移除第一个p标签

print soup

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值