BeautifulSoup

#encoding='utf-8'
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen('http://pythonscraping.com/pages/page1.html')
html=urlopen('http://pythonscraping.com/pages/page1.html')
html1=urlopen('https://book.douban.com/')
#r=html1.read().decode('utf-8')
bsobj=BeautifulSoup(html1,from_encoding='utf-8')
g1=bsobj.findAll('h4',{'class':'title'})
for g in g1:
    print(g.get_text())#去掉标签,获取内容


#####
findAll(tag,attributes,recuributes,recursive,text,limit,keywords)
find(tag,attributes,recursive,text,keywords)#limit=1时的findAll
tag:传递一标签或多标签。例如findAll({'h2','h3','h4'})
attributes:用python字典封装的一个标签的若干属性和对应的属性值。
例如findAll('span',{'class':{'green','red'}})返回文档里红色与绿色两种颜色的span标签。
recursive:布尔型,Ture查找标签参数的所有子标签,以及子标签的标签。False只查找一级标签。
text:用标签的文本内容去匹配,而不是标签的属性。例如我们查找文本中包含‘广西科学出版社’的数量。
namelist=bsobj.findAll(publisher='广西科学技术出版社')

print(len(namelist))

处理子标签和其他后代标签

子标签就是一个父标签的下一级,而后代标签是指一个父标签
下面所有级别的标签。例如,tr 标签是tabel 标签的子标签,而tr、th、td、img 和span
标签都是tabel 标签的后代标签(我们的示例页面中就是如此)。所有的子标签都是后代标

签,但不是所有的后代标签都是子标签。













  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值