爬虫4:bs4

对于re来说,公式就是 . ∗ ? .*? .?贪婪搜索第一次匹配成功就返回,.*则返回所有成功匹配的

北京新发地尝试
那么对于bs4来说公式就是BeautifulSoup(“html源码”, “html.parser”)

import requests
from bs4 import BeautifulSoup

# url = 'http://www.xinfadi.com.cn/getPriceData.html'
#
# headers = {
#     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
# }
# data = {
#     "limit" : "",
#     "current" : "",
#     "pubDataStartTime" : "",
#     "pubDataEndTime" : "",
#     "prodPcatid" : "",
#     "prodCatid" : "",
#     "prodName" : "大白菜",
# }
# resp = requests.post(url,data=data, headers=headers, verify=False)\
#
# print(resp.text)
#
# resp.close()
#
# # 生成bs对象
# page = BeautifulSoup(resp.text, "html.parser")
# # 从bs对象中查找数据
# # find找第一个(标签,属性=值)
# # find_all全找(标签,属性=值)
# table = page.find("table", attrs={
#     "class":"hq_table"
# })
# # 拿到所有数据行
# trs = table.find_all("tr")[1:]
# for tr in trs:
#     tds = tr.find_all("td")
#     for td in tds:
#         print(td.text, end=" ")
#     print()


# 优美图库
url = 'https://www.umei.cc/update.htm'

resp = requests.get(url)
resp.encoding = 'utf-8'

# 源代码交给bs
main_page = BeautifulSoup(resp.text, "html.parser")
lst = main_page.find("div", class_="Clbc_top table").find_all("a")

for a in lst:
    # src = a.find("img").get("src")
    # print(a.get('src'))
    # 拿到子页面源代码
    # child_page_resp = req
    print(a)
    # 写入图片,二进制写入
    # wb write
resp.close()
  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值