bs4中的BeautifulSoup



# -*- coding: utf-8 -*-
#爬取的网页为:http://www.pythonscraping.com/pages/warandpeace.html
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
#第二个参数'lxml',应该是解析引擎
bsObj=BeautifulSoup(html,'lxml')
#找到所有span标签,并且这些span标签的class='green'
nameList=bsObj.findAll("span",{"class":"green"})
for name in nameList:
    #get_text获取该节点的字符
    #会把正在处理的HTML文档中的所有标签都清除,然后返回一个值包含文字的字符串。
    print(name.get_text())

nameList=bsObj.findAll(text="the prince")
print("包含“the prince”内容的标签数量",len(nameList))

#findAll有一个关键字参数keyword,例如
allText=bsObj.findAll(id='text')
#这个和表达式返回的结果是一样的,bsObj.findAll("",{"id":"text"})
#keyword偶尔会出现问题,如果使用class='ete',那么会出错的,因为class是python保留的关键字
#这个时候可以使用class_='ete'来代替
print("从哪开始的?",allText[0].get_text())


#处理子标签和后代标签
#子标签是指父标签的下一级
#后代标签是指父标签的下面所有级别的标签
#所有的子标签一定是后代标签,但是并不是所有后代标签都是子标签

#一般情况下,BeautifulSoup函数总是处理当前标签的后代标签
#例如,bsObj.div.findAll("img"):找除文档中的第一个div标签,然后获取这个div后代里所有的img标签
#如果只想找除子标签,可以使用.chilren标签:
html=urlopen("http://www.pythonscraping.com/pages/page3.html")
bsObj=BeautifulSoup(html,'lxml')
for child in bsObj.find("table",{"id":"giftList"}).children:
    print("child:",child)

for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings:
    print("sibling:",sibling)#为什么会还有个空的sibling

#总共有,children,parent,parents,next_siblings,next_sibling,previous_sibling,previous_sibling

#BeautifulSoup还可以和正则表达式一起使用
import re
images=bsObj.findAll("img",{'src':re.compile("\.\./img/gifts/img.*\.jpg")})
for image in images:
    #这个image和image.attrs是什么关系
    print(image.attrs['src'])
    # print(image['src'])

#BeautifulSoup还可以允许我们把特定的函数类型当作findAll函数的参数,
# 唯一的显示条件是这些函数必须把一个标签当作参数,且返回结果为bool类型。
#保留评估结果为真的那些标签
#例如,
print(bsObj.findAll(lambda tag:len(tag.attrs)==2))#,获取具有两个属性的标签

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值