关于我之前项目
HTML提取数据,保存Docx
发表我一些自己的想法和见解。
关于压缩包的提取:
- re(正则表达式)
该方法确实是提取数据最快的提取方法,但是它也会存在一点点的弊端。
第一:由于标签中可能存在异常的标签,数据的提取会存在问题,所以本项目中我并没有使用
- xpath
本方法是本项目主要使用的数据提取办法,速度方面较快,还有很多的数据提取办法
i.xpath('./div[1]/img/@src')[0] # @属性名获取属性值 list类型
i.xpath('string(./div[2])') # 直接获取标签下的全部文本 str类型
i.xpath('./div[1]/img/text()')[0] # 获取标签包裹的文本信息 list类型
- bs4
这个虽然说也是很好用,但是比xpath的速度会比较慢一些,虽然说差距不大