【Python BS4】Beautiful Soup4的使用说明

XPath的使用点击跳转

使用Beautiful Soup4从HTML源代码中提取有用的信息

简介

BeautifulSoup4(BS4)Python的一个第三方库,用来从HTMLXML中提取数据。

BeautifulSoup4在某些方面比XPath易懂,但是不如XPath简洁,而且由于它是使用Python开发的,因此速度比XPath慢。

使用pip命令安装:pip install beautifulsoup4

安装后,切换到Python的交互窗口,输入from bs4 import BeautifulSoup,如果没有报错则说明安装成功
在这里插入图片描述

语法讲解

使用Beautiful Soup4提取HTML内容,一般要经过以下两步。

  • 处理源代码生成BeautifulSoup对象。
  • 使用find_all()或者find()来查找内容。

源代码解析

  • 解析源代码生成BeautifulSoup对象,使用以下的代码格式
    soup = BeautifulSoup(网页源代码,'解析器')
    
  • 这里的解析器可以写成html.parser,如果你安装了lxml,还可以写成lxml
    soup = BeautifulSoup(source, 'lxml')
    soup = BeautifulSoup(source, 'html.parser')
    

find和find_all

findfind_all的区别就是前者会返回第一个满足条件的数据,后者返回全部满足条件的数据

查找内容

  • 查找内容的基本流程和使用XPath非常相似。首先要找到包含特殊属性值的标签,并使用这个标签来寻找内容。

  • 假设需要获取“我需要的信息2”,由于这个信息所在< li >标签的class属性的值为“test”,这个值本身就很特殊,因此可以直接通过这个值来进行定位.

    from bs4 import BeautifulSoup
    
    source = '''
    <html>
      <head>
        <title>测试</title>
      </head>
      <body>
        <div class="useful">
          <ul>
            <li class="info">我需要的信息1</li>
            <li class="test">我需要的信息2</li>
            <li class="iamstrange">我需要的信息3</li>
          </ul>
        </div>
    
        <div class="useless">
          <ul>
            <li class="info">垃圾1</li>
            <li class="info">垃圾2</li>
          </ul>
        </div>
      </body>
    </html>
    '''
    soup = BeautifulSoup(source, 'lxml')
    # soup = BeautifulSoup(source, 'html.parser')
    
    info = soup.find(class_='test')
    print(f'返回的数据类型是{type(info)}')
    print(info.string)
    

    在这里插入图片描述

  • 由于HTML中的class属性与Pythonclass关键字相同,因此为了不产生冲突,BS4规定,如果遇到要查询class的情况,使用“class_”来代替。在查询HTML代码时,class属性的属性值为“test”的标签,得到find()方法返回的BeautifulSoupTag对象。可以直接通过.string属性就可以读出标签中的文字信息。

  • 如果需要获取useful下的全部数据,先抓大再抓小依旧有效

    useful = soup.find(class_='useful')
    all_content = useful.find_all('li')
    for li in all_content:
        print(li.string)
    

    在这里插入图片描述

  • 找到以我需要开头的信息

    content = soup.find_all(text=re.compile('我需要'))
    for each in content:
        print(each.string)
    
  • 对属性值的搜索也可以使用正则

    content = soup.find_all(class_=re.compile('iam'))
    for each in content:
        print(each.string)
    
  • 除了获取标签里面的文本外,BS4也可以获取标签里面的属性值。如果想获取某个属性值,可以将BeautifulSoup Tag对象看成字典,将属性名当作Key,返回的结果为列表

    useful = soup.find(class_='useful')
    all_content = useful.find_all('li')
    for li in all_content:
        print(li['class'])
    

    在这里插入图片描述

跳转顶部


select

select的功能跟findfind_all 一样用来选取特定的标签,它的选取规则依赖于css,我们把它叫做css选择器

通过标签查找,返回含有此标签的语句会按照列表的形式返回

li_list = soup.select('li')
print(li_list)

在这里插入图片描述


通过类名来查找

class_test = soup.select('.test')
print(class_test)

在这里插入图片描述


通过id名查找

我们将上面的HTML代码稍作修改

<html>
  <head>
    <title>测试</title>
  </head>
  <body>
    <div class="useful">
      <ul>
        <li class="info">我需要的信息1</li>
        <li class="test">我需要的信息2</li>
        <li class="iamstrange">我需要的信息3</li>
      </ul>
    </div>

    <div class="useless">
      <ul>
        <li class="id">垃圾1</li>
        <li class="id">垃圾2</li>
      </ul>
    </div>
  </body>
</html>
id_info1 = soup.select('#info1')

在这里插入图片描述


组合查找

  • 组合查找,即是可以把标签名和类名、标签名和id名组合,但是中间要用空格隔开,组合查找,先查找满足标签的语句,再接着查找该语句下满足类名或者id的语句

    li_class = soup.select('ul .test')
    print(li_class)
    li_id = soup.select('ul #info1')
    print(li_id)
    

    在这里插入图片描述


子标签查找

div_ul_li = soup.select('div > ul > li')
div_ul_li_id_info1 = soup.select('div > ul #info1')
print(div_ul_li)
print(div_ul_li_id_info1)

在这里插入图片描述


属性查找

  • 查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。
    data = soup.select('ul li[class="test"]')
    print(data)
    
    在这里插入图片描述

跳转顶部


  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Beautiful Soup 是一个用于从 HTML 和 XML 文件中提取数据的 Python 库。它支持多种解析器,包括 Python 自带的标准库解析器和第三方解析器,可以灵活地处理不同的 HTML 和 XML 文件。 下面是使用 Beautiful Soup 的基本步骤: 1. 安装 Beautiful Soup:可以通过 pip 安装,命令为 pip install beautifulsoup4。 2. 导入 Beautiful Soup 库:在 Python 中导入库的语句为 from bs4 import BeautifulSoup。 3. 解析 HTML 或 XML 文件:使用 Beautiful Soup 的构造函数 BeautifulSoup(),传入要解析的 HTML 或 XML 文件以及解析器类型。 4. 提取数据:使用 Beautiful Soup 提供的一系列方法,如 find()、find_all()、select() 等,根据标签、属性等信息提取所需的数据。 下面是一个简单的示例代码: ```python from bs4 import BeautifulSoup # 解析 HTML 文件 with open('example.html', 'r') as f: html = f.read() soup = BeautifulSoup(html, 'html.parser') # 提取数据 title = soup.title links = soup.find_all('a') for link in links: print(link.get('href')) ``` 在上面的代码中,首先读取 example.html 文件,并使用 html.parser 解析器解析文件。然后,使用 soup.title 获取 HTML 文件中的 title 标签,并使用 soup.find_all('a') 获取所有的 a 标签,并通过循环遍历每个 a 标签,并打印其 href 属性的值。 这只是一个简单的例子,Beautiful Soup 还有很多其他功能,可以根据需要进行使用

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值