Python爬虫之lxml

YOLO数据集工作室

已于 2023-09-29 18:39:56 修改

阅读量366

点赞数

文章标签： python 爬虫开发语言

于 2023-05-16 09:19:26 首次发布

本文链接：https://blog.csdn.net/m0_64879847/article/details/130698196

版权

学习笔记专栏收录该内容

133 篇文章 0 订阅 ¥299.90 ¥399.90

订阅专栏

                    
                        
                    
                    8、lxml 
lxml 可以接收bytes和str的字符串
利用etree.HTML，将字符串转化为Element对象
 html = etree.HTML(text)
Element对象具有xpath的方法
 html.xpath(‘’)
lxml可以自动修正和补全html代码，可能会改错需要查看下 
  etree.tostring(html) 可以查看element对象中所包含的字符串，根据修正后的HTML写Xpath
 
提取页面数据的思路 
  先分组，取到一个包含分组标签的列表ret3 = html.xpath("//li[@class='item-1']")
 
遍历，取其中每一组数据进行提取，不会造成数据的对应错乱for i in ret3:    
   item = {<