python记录:提取嵌入在HTML格式中的文本信息_网易云音乐_X车网

本文介绍了如何使用Python的BeautifulSoup库从HTML格式的数据中提取信息,包括基于标签名称和属性的选择,以及在实际案例中如X车网和网易云音乐中的应用,展示了如何抓取和解析网页内容并下载图片。
摘要由CSDN通过智能技术生成

很多网站请求后,返回的数据是嵌套在HTML格式中的。例如:5xclass.cn

对于这种情况想要提取其中的数据,常见有两种方法:

  • 基于bs4模块(本节重点
  • 基于xpath模块

1.HTML格式

<div>
    <h1 class="item">洪七公</h1>
    <ul class="item">
        <li>篮球</li>
        <li>足球</li>
    </ul>
    <div id='x3'>
        <span>5xclass.cn</span>
        <a>pythonav.com</a>
    </div>
</div>

可以根据 标签名称标签属性 来实现直接或间接寻找标签。

2.bs4

基于bs4可以实现去HTML格式的包裹的数据库中快速提取我们想要的数据。

2.1 安装

pip3 install beautifulsoup4
或
pip3.11 install beautifulsoup4

2.2 使用

  • 根据标签名称,获取标签(只获取找到的第1个)
  from bs4 import BeautifulSoup
  
  html_string = """<div>
      <h1 class="item">洪七公</h1>
      <ul class="item">
          <li>篮球</li>
          <li>足球</li>
      </ul>
      <div id='x3'>
          <span>5xclass.cn</span>
          <a href="www.xxx.com" class='info'>pythonav.com</a>
      </div>
  </div>"""
  
  sou
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值