xpath的使用:
1、引入lxml包。
import lxml
2、实例化etree对象。
tree = etree.HTML(content) # 数据来自网络
tree = etree.prase(content) # 数据来自本地
3、解析etree对象,提取所需内容。
data = tree.xpath("...") # data是一个列表,不能直接打印内容,可借助索引来实现内容的操作。
tips:
1、在给要保存的文件取名字时一定要准确标注其后缀名,否则文件打不开。
2、涉及到中文乱码时有一个通用的解决办法:
chinese_text = chinese_text.encode("iso-8859-1").decode("gbk")