python爬虫3:bt4的使用

import bs4
import re


def getData():
    file = open("./tb.html", "rb")
    html = file.read()
    soup = bs4.BeautifulSoup(html, "html.parser")
    #获取所有标签
    fd = soup.find_all()

    #获取某个标签内容 (只取第一个此标签)
    div = soup.div
    div = soup.div.string
    #标签内属性
    attrs = soup.tr.attrs
    #标签内内容
    tr = soup.tr.contents

    #查找标签
    find_all = soup.find_all("tr")

    #正则表达式搜索
    soup_find_all = soup.find_all(re.compile("t"))

    #根据特定条件查找
    r = soup.find_all(colspan="2")
    result_set = soup.find_all(type=True)  #=True代表有这个的
    result_set = soup.find_all(class_=True) #class特殊字符 加_
    all1 = soup.find_all(text=["测试", "3"])

    #css选择器
    select = soup.select(".a")
    select = soup.select("table > div") #根据递进层级查找
    select = soup.select("input ~ div") #根据同层级查找

    print(select)

getData()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值