BeautifulSoup 用法总结

BeautifulSoup是一个Python库,用于从HTML和XML文件中提取数据。本文将介绍其安装、解析器选择、标签选择器、常用属性和方法,如find_all、CSS选择器和内容提取等,帮助你高效解析网页。
摘要由CSDN通过智能技术生成

介绍

简介

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库

安装

pip install beautifulsoup4

解析器

Beautiful Soup支持Python标准库中的HTML解析器(’html.parser’),还支持一些第三方的解析器,比如lxml,推荐用后者,纯C实现的,速度更快:

pip install lxml

引入及容错处理

from bs4 import BeautifulSoup

soup=BeautifulSoup(html_doc,'lxml')
soup=soup.prettify() #容错处理===>自动补全代码

选择器

一个html是一个对象,对象可以嵌套对象;每个soup对象下的每一个标签,也都是对象。

标签选择器

  • 标签选择器:即直接
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值