【Python BS4】Beautiful Soup4的使用说明

本文介绍了如何使用BeautifulSoup4从HTML中高效提取信息,包括find和find_all方法的应用,以及如何通过CSS选择器(select)进行更灵活的标签定位。同时,讨论了XPath和BeautifulSoup4之间的区别,以及如何处理class和id属性搜索。

XPath的使用点击跳转

使用Beautiful Soup4从HTML源代码中提取有用的信息

简介

BeautifulSoup4(BS4)Python的一个第三方库,用来从HTMLXML中提取数据。

BeautifulSoup4在某些方面比XPath易懂,但是不如XPath简洁,而且由于它是使用Python开发的,因此速度比XPath慢。

使用pip命令安装:pip install beautifulsoup4

安装后,切换到Python的交互窗口,输入from bs4 import BeautifulSoup,如果没有报错则说明安装成功
在这里插入图片描述

语法讲解

使用Beautiful Soup4提取HTML内容,一般要经过以下两步。

  • 处理源代码生成BeautifulSoup对象。
  • 使用find_all()或者find()来查找内容。

源代码解析

  • 解析源代码生成BeautifulSoup对象,使用以下的代码格式
    soup = BeautifulSoup(网页源代码,'解析器')
    
  • 这里的解析器可以写成html.parser,如果你安装了lxml,还可以写成lxml
    soup = BeautifulSoup(source, 'lxml')
    soup = BeautifulSoup(source, 'html.parser')
    

find和find_all

findfind_all的区别就是前者会返回第一个满足条件的数据,后者返回全部满足条件的数据

查找内容

  • 查找内容的基本流程和使用XPath非常相似。首先要找到包含特殊属性值的标签,并使用这个标签来寻找内容。

  • 假设需要获取“我需要的信息2”,由于这个信息所在< li >标签的class属性的值为“test”,这个值本身就很特殊,因此可以直接通过这个值来进行定位.

    from bs4 import BeautifulSoup
    
    source = '''
    <html>
      <head>
        <title>测试</title>
      </head>
      <body>
        <div class="useful">
          <ul>
            <li class="info">我需要的信息1</li>
            <li class="test">我需要的信息2</li>
            <li class="iamstrange">我需要的信息3</li>
          </ul>
        </div>
    
        <div class="useless">
          <ul>
            <li class="info">垃圾1</li>
            <li class="info">垃圾2</li>
          </ul>
        </div>
      </body>
    </html>
    '''
    soup = BeautifulSoup(source, 'lxml')
    # soup = BeautifulSoup(source, 'html.parser')
    
    info = soup.find(class_
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值