BeautifuiSoup

 

# from bs4 import BeautifulSoup
#
# soup  = BeautifulSoup(open("caogao1.html",encoding="utf-8"),'lxml')
# print(soup)
#.*  输出第一个匹配*的数据
# print(soup.li)第一个 li标签   print(soup.a)第一个a标签
# print(soup.a.attrs)    #输出a标签 的所有属性值
#bs4的一些函数
#1)
# find()
# print(soup.find("a"))   #返回第一个符合条件的数据
# print(soup.find("a",title="2"))   #返回a标签 并且符合后面条件的数据
# print(soup.find("a",class="3"))# 之所以报错 是因为 class是内置的  需要添加 _  来使用
# print(soup.find("a",class_="3")) # 需要这种书写方式
#2)
#find_all
# print(soup.find_all("a"))  #返回的是一个列表  并且是所有的a标签
#如果要返回多个
# print(soup.find_all(["a","li"]))  #需要把返回的数据 装入到一个列表中
# print(soup.find_all("li",limit=2))  #返回前两条数据  limit
#3)
#select
#返回的是一个列表 并且返回多个数据
# print(soup.select("a")) 全部 a
# print(soup.select(".a3"))  #返回class 属性值为 a3的数据   这叫做类选择器
# print(soup.select("#a2"))   ##返回id属性值为 a2的数据
#属性选择器》》通过属性来寻找对应的数据
#查找li标签中 id有值的数据
# print(soup.select("li[id]"))
#查找li标签中 id值为 3 的数据
# print(soup.select("li[id='3']"))


#后代选择器
# print(soup.select('div li'))    #div空格li  div下面的li
#子代选择器
#某标签的第一级子标签
#注意:很多的计算机语言中如果不加空格不会输出内容  但是在bs4中不会报错也会输出内容
# print(soup.select('div > ul > li'))
#找到a  和li  标签 所有的对象
# print(soup.select("a,li"))
# obj = soup.select("li[id='1']")[0]  #select 返回的是列表  需要加[0]来提取之中的数据
#name 显示 标签的名字
# print(obj.name)
#输出标签下的文字
# print(obj.get_text())
#节点的属性
#将属性值作为一个字典返回
#get  返回属性的值
# print(obj.attrs.get("id"))  #1
# print(obj.get("id"))        #2
# print(obj["id"])            #3   三种方式都行



#爬取星巴克菜单(名字)
import urllib.request
url="https://www.starbucks.com.cn/menu/"
headers={
'User-Agent':' Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36 Core/1.77.54.400 QQBrowser/10.9.4520.400'
}
request = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode("utf-8")
from bs4 import BeautifulSoup
soup = BeautifulSoup(content,'lxml')
#//ul[@class='grid padded-3 product']//strong/text()
name_list= soup.select("ul[class='grid padded-3 product'] strong")
for name in name_list:
    print(name.get_text())

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

·惊鸿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值