有这么一个html
根据需求,现需要先转换为etree,经过处理后再转回字符串
即
此时打印article,结果为
可以发现,原本的apap四个标签中,第二个a标签,因为不含有text内容在经过tostring之后已经被折叠了,即
变成了
用谷歌浏览器打开效果为
显然已经改变了原有的html效果,
暂时未发现好的处理办法,只能先将没有text的a标签删除
20200130
同样的情况也出现在了iframe标签
谷歌浏览不能解析这样的单标签
即:
当iframe标签没有文本的时候,tostring会处理成单标签
处理:
iframe标签加一个空格文本
iframe.text = ’ ’