# -*- coding:utf-8 -*-
# 需要下载bs4包 pip install bs4
# lxml xpath会用到里边的tree
from bs4 import BeautifulSoup
import codecs
# BeautifulSoup 是python支持的一个第三方的包,作用是用来解析网页,提取数据
# lxml 第三方的解析包,解析html速度比较快,功能强大,底层是c语言实现的
# 1.html源代码 2.解析器 lxml
# bs是根节点对象 即最基础的节点对象
bs = BeautifulSoup(codecs.open('index.html', 'r', encoding='utf-8'), 'lxml')
# bs是BeautifulSoup类型的对象
print(bs.prettify()) #与print(bs)都可以输出网页内容 但注意它并不是网页源代码,而是一个对象
# 1.<class 'bs4.BeautifulSoup'>
print(type(bs))
print(bs.head.title)
# 2.<class 'bs4.element.Tag'> bs4.element.Tag是子节点
print(type(bs.title))
# name 节点的名称,bs.name获取到的是[document]
# 对于a\p\div等标签来说,获取到的是标签的名称
print(bs.name)
print(bs.title.name)
# str类型
print(type(bs.title.name))
# attrs 获取标签节点的属性,返回的是一个key:value形式的字典,如果某个属性有多个值,返回value就是一个列表
print(bs.a.attrs)
# 获取某一个属性值
print(bs.a['href'
bs4_lxml的基本用法
最新推荐文章于 2024-07-08 20:21:19 发布
这篇博客介绍了如何利用Python的BeautifulSoup4(bs4)库和lxml解析器来处理HTML文件,包括基本的解析、搜索元素以及提取信息等操作。
摘要由CSDN通过智能技术生成