python html源码压缩，使用 lxml etree

最新推荐文章于 2022-09-26 18:27:27 发布

银古_1427

最新推荐文章于 2022-09-26 18:27:27 发布

阅读量584

点赞数

文章标签： html xpath 正则表达式 python

本文链接：https://blog.csdn.net/qq_40734108/article/details/118598029

版权

用爬虫抓下来的html源码，一般都有很多换行符和空格，如果相对这些空字符都去掉，也就是对源码做一个压缩，要怎么做呢？

有人说可以直接用正则去替换

import re

new_txt = re.sub(r">\s+<", "><", text)

但这样假如标签中有文本存在模式类似 ">\s+<" 的文本，原本的结构就被破坏了，因此最好不要用正则直接去修改 html 源码，很容易造成误差

逛了一圈 stockflow，我找到一个方案，使用 lxml.etree遍历每个标签节点，对其中的 tail和text 做一个 strip操作，如下：

from lxml import etree

def remove_tag_space(html_text):
	tree = etree.HTML(html_text)
	for tag in tree.iter():
		if tag.tail:
			tag.tail = tag.tail.strip()
		if tag.text:
			tag.text = tag.text.strip()
	return etree.tostring(tree, encoding="unicode")

效果如下：