BeautifulSoup4的基本使用

BeautifulSoup4的基本使用

序:BeautifulSoup是python解析html非常好用的第三方库!

安装:

    pip install beautifulsoup4

基本使用:

    from bs4 import BeautifulSoup

    html_str = """
        <ul>
            <li>
                <a href="http://www.baidu.com/">百度一下</a>
            </li>
            <li>合适的话发多少</li>
            <li>
                <a class="baidu" href="http://www.baidu.com/">不会发生看到</a>
            </li>
            <li>
                <a  id="lagou" href="http://www.lagou.com/">lagou</a>
            </li>
            <li>
                <label class="enterText enterArea">列表图预览:</label>
                <p class="enterImg">
                    <img id="previewImage" title='mmm' src="http://www.google.com/logo.png"/>
                </p>
                <div class="Validform_checktip">范德萨范德萨</div>
            </li>
        </ul>
    """

    soup = BeautifulSoup(html_str,'html.parser')

    #html对象  text文本去掉标签
    # print(soup)
    # print(soup.text)


    # <class 'bs4.BeautifulSoup'> 对象类型
    # print(type(soup))

    # 查找a标签 .text打印a的内容
    # print(soup.find('a'))
    # print(soup.find('a').text)

    # 查找a标签 class=baidu的
    # print(soup.find('a',class_='baidu'))

    # 查找id=lagou
    # print(soup.find(id='lagou'))

    # 查找title='mmm' 前边可以写具体找哪个标签
    # print(soup.find(title='mmm'))

    # find_all 找所有  返回一个list 数组类型
    # print(soup.find_all('a'))
    # print(soup.find_all('a')[0]) #第一个
    all_a = soup.find_all('a')
    for item in all_a:
        if item:
            # print(item.attrs)
            print(item.attrs['href']) #dict类型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值