bs4_lxml的基本用法

最新推荐文章于 2024-07-08 20:21:19 发布

dayun555

最新推荐文章于 2024-07-08 20:21:19 发布

阅读量794

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/dayun555/article/details/79488611

版权

这篇博客介绍了如何利用Python的BeautifulSoup4（bs4）库和lxml解析器来处理HTML文件，包括基本的解析、搜索元素以及提取信息等操作。

摘要由CSDN通过智能技术生成

# -*- coding:utf-8 -*-

# 需要下载bs4包 pip install bs4
# lxml xpath会用到里边的tree
from bs4 import BeautifulSoup
import codecs
# BeautifulSoup 是python支持的一个第三方的包，作用是用来解析网页，提取数据

# lxml 第三方的解析包，解析html速度比较快，功能强大，底层是c语言实现的
# 1.html源代码  2.解析器 lxml
# bs是根节点对象 即最基础的节点对象
bs = BeautifulSoup(codecs.open('index.html', 'r', encoding='utf-8'), 'lxml')
# bs是BeautifulSoup类型的对象
print(bs.prettify())  #与print(bs)都可以输出网页内容  但注意它并不是网页源代码，而是一个对象
# 1.<class 'bs4.BeautifulSoup'>
print(type(bs))

print(bs.head.title)
# 2.<class 'bs4.element.Tag'>    bs4.element.Tag是子节点
print(type(bs.title))

# name 节点的名称，bs.name获取到的是[document]
# 对于a\p\div等标签来说，获取到的是标签的名称
print(bs.name)
print(bs.title.name)
# str类型
print(type(bs.title.name))

# attrs 获取标签节点的属性，返回的是一个key:value形式的字典，如果某个属性有多个值，返回value就是一个列表
print(bs.a.attrs)
# 获取某一个属性值
print(bs.a['href'