python3 基于lxml解析html简介

最新推荐文章于 2024-07-16 16:30:33 发布

阿刁阿

最新推荐文章于 2024-07-16 16:30:33 发布

阅读量2.8k

点赞数 2

分类专栏： Python

本文链接：https://blog.csdn.net/lc_buzhidao/article/details/102000754

版权

Python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

背景

工作中需要解析html文件，正好知道lxml模块有这个功能，所以就用上了。不过是入门级别的使用，但大概也算对lxml模块的加深了一些了解。
lxml模块有很多功能，我目前主要用于处理xml和html。这个模块兼容大多数ElementTree API（python3中用于处理xml的模块），并且更加优秀。
个人认为，lxml的优势在于功能强大，提供很多API来完成各种任务。劣势就在于提供API太多，一般情况下是在一堆API选取几个来使用，所以想短时间内掌握这个模块是比较困难的。

例子

见GetXML对象中ReadHtml方法。

import xml.etree.ElementTree as ET
from lxml import etree

class GetXML:
	'提供读取XML文件和读取值得一些方法'
	def __init__(self):
		pass

	def Read(self,xmlfilename):
		'将XML文件解析为树,并且得到根节点'
		#tree = ET.ElementTree(file=xmlfilename)
		tree = etree.parse(xmlfilename)
		self.root = tree.getroot()
		return self.root

	def Iter(self):
		'递归迭代xml文件中所有节点（包含子节点，以及子节点的子节点）'
		return self.root.iter()

	def FindAll(self,tag):
		'查找节点为tag的所有直接子元素'
		#直接子元素的意思：只会查找当前节点的子节点那一级目录
		return self.root.findall(tag)

	def Find(self,tag):
		'查找第一个节点为tag的直接子元素'
		return self.root.find(tag)

	def ReadHtml(self,htmlfilename):
		'解析html文件，返回一个支持xPath语法解析html的对象'
		#创建自定义解析器
		parser = etree.HTMLParser(encoding='GBK')
		#解析html文件,返回一个<class 'lxml.etree._ElementTree'>对象
		htmlelement = etree.parse(htmlfilename, parser = parser)
		#返回一个一个字符串，包含html中的所有内容
		html = etree.tostring(htmlelement, encoding='utf-8').decode('utf-8')
		#生成一个支持xpath解析的对象
		html = etree.HTML(html)
		return html

该方法使用的接口都可以在官方文档里找到，具体的学习建议面对官方文档。
https://lxml.de/index.html

再贴一个入门的示例

在这里插入图片描述

最后

lxml模块是强大的，这里只是简单介绍了部分功能以及使用少量的几个API。强烈建议需要使用这个模块的同学，去官方文档中了解该模块的各个子模块中的各个API。因为API真的太多了~~~~

阿刁阿

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python3 基于lxml解析html简介

背景工作中需要解析html文件，正好知道lxml模块有这个功能，所以就用上了。不过是入门级别的使用，但大概也算对lxml模块的加深了一些了解。lxml模块有很多功能，我目前主要用于处理xml和html。这个模块兼容大多数ElementTree API（python3中用于处理xml的模块），并且更加优秀。个人认为，lxml的优势在于功能强大，提供很多API来完成各种任务。劣势就在于提供API...
复制链接

扫一扫

专栏目录