lxml安装_Python爬虫基础教程——lxml爬虫入门

最新推荐文章于 2024-03-14 21:17:13 发布

weixin_39525812

最新推荐文章于 2024-03-14 21:17:13 发布

阅读量179

点赞数

文章标签： lxml安装 python 获取 class下所有td 内容安装了lxml但不能导入爬虫python入门

点击上方蓝色文字关注我们吧

有你想要的精彩

作者 | 東不归出品 | Python知识学堂

大家好，上次介绍了BeautifulSoup爬虫入门,本篇内容是介绍lxml模块相关教程，主要为Xpath与lxml.cssselect 的基本使用。

lxml介绍

引用官方的解释：

lxml XML工具箱是C库libxml2和libxslt的Python绑定。它的独特之处在于它将这些库的速度和XML功能的完整性与本机Python API的简单性结合在一起，该Python API大多数都兼容，但优于著名的 ElementTree API。

lxml.etree是一个非常快速的XML库。这主要是由于libxml2的速度，例如解析器和序列化器，或XPath引擎。lxml的其他区域专门为在高层操作(例如树迭代器)中的高性能而编写。

简单的来说，lxml 是一种使用 Python 编写的库，可以迅速、灵活地处理 XML 和 HTML。

学习lxml库的目的

利用所学的XPath语法与lxml.cssselect模块，来快速定位特定元素以及节点信息，目的是提取HTML、XML目标数据

lxml安装

pip install lxml

或

pip install lxml

-i http://pypi.douban.com/simple/

--trusted-host pypi.douban.com

顺便说一句：我使用的开发工具还是vscode，不清楚的看一下之前的推文。

etree模块

使用etree模块，我们可以创建XML/Html元素及其子元素，我们用于操作Html或XML文件时非常有用。

Element类

用于ElementTree的API主容器对象。大多数XML树功能都是通过此类访问的。

下面尝试一下:

from lxml import etree
root=etree.Element('root')
print(root.tag)
child=etree.SubElement(root,'child') # 添加一个子节点
child.set('id','test_Id')
print(etree.tostring(root))          # tostring 为序列化

结果：

可以看出来我们可以使用Element类来创建xml内容。

tostring()

tostring()主要是对对象进行序列化，不能对集合进行序列化。

from lxml import etree
root = etree.XML('') 
print(etree.tostring(root))                        #default: method = 'xml'
print(etree.tostring(root, encoding='iso-8859-1')) #设置编码方式为 iso-8859-1
print(etree.tostring(root, pretty_print=True))     # 格式化
root = etree.XML('

Hello Python知识学堂

')
etree.tostring(root, method='xml')                 # 默认值为：xml
etree.tostring(root, method='html')                #转成html
etree.tostring(root, method='text')                #转成文本即获取标签内的文本

不难理解，tostring()是序列化，那么fromstring()就是反序列化。

XML()/HTML()

类似于formstring()将字符串转成xmL/HTML对象

root = etree.XML("data")
etree.tostring(root)
root = etree.HTML("

data

")
etree.tostring(root)

关于etree模块就简单的介绍一些，有想深入了解的可以看一下官方文档。

XPath

lxml 支持XPath语法，XPath的语法还是比较简单的，我们尝试一下:

from lxml import etree
text="

`Python知识学堂`

"
html=etree.HTML(text)   #初始化生成一个XPath解析对象
result=html.xpath('//*')  #//代表获取子孙节点，*代表获取所有for it in result:
    print(etree.tostring(it,encoding='utf-8').decode('utf-8'))

结果：

下面介绍一下基本的语法以及举一些实列。

XPath常见语法

实例

from lxml import etree
def to_string(html):return etree.tostring(html,encoding='utf-8').decode('utf-8') #只能解析对象不能解析list
text='''

Python知识学堂

学习Python

很好玩


'''
html=etree.HTML(text)              #初始化生成一个XPath解析对象  并且会补全html 比如：body标签
print(to_string(html))# /表示从根节点开始选择
print(html.xpath('/div'))          #此时找不到div标签的 因为text 转成html 代码补全 导致初始的标签为html 
result=html.xpath('/html/body/div')#可以找到所有html下的body标签 再找到所有body标签下的div标签for item in result:
    print(to_string(item))
print('------------------分隔符---------------')# // 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
result=html.xpath('/html//div')    #获取html 标签下的所有div 标签for item in result:
    print(to_string(item))
print('------------------分隔符---------------')# . 选取当前节点
result=html.xpath('./body')        #获取根节点下的body 标签for item in result:
    print(to_string(item))
print('------------------分隔符---------------')#..  选取当前节点的父节点  @选取属性
result=html.xpath('//a/../@class') #获取a标签的 父节点标签的 class的属性值print(result) print('------------------分隔符---------------')# * 匹配任何元素节点result=html.xpath('//*')           #选取文档中的所有元素for item in result:
    print(to_string(item))
print('------------------分隔符---------------')# [@attribute='value'] 匹配属性值
result=html.xpath('//div[@]') #选取文档div标签 并且 含有class 属性且值为‘item-2’的所有元素for item in result:print(to_string(item))

大家需要注意：

xpath的返回结果都是集合(list)
xpath只能作用与对象(object)上

lxml.cssselect

lxml.cssselect模块中最重要的是CSSSelector 即CSS选择器。了解前端知识的可能会容易一点。

安装

这个模块需要安装

pip install cssselect

CSS选择器

上面是一些常用的用法，可以参考一下。

我在网上看到关于使用cssselect的问题

使用cssselect('.aa bb')是取不出来的，解决方法是将空格转换为 . 点。

可能不是很了解CSS选择器的规则，不知道class属性有多属性值时如何选择。

实例

from lxml.cssselect import CSSSelectorfrom lxml import etree
text='''

Python知识学堂

学习Python

很好玩


'''
html=etree.HTML(text)  #初始化生成一个XPath解析对象  并且会补全html
result=html.cssselect('div.item-1.item-2 a') #选择div标签并且含有class属性且值含有"item-1"与"item-2" 下的a 标签子节点for item in result:print(item.text)       # 获取标签的内容print(item.get('href'))#获取a 标签的属性值

结果：

从上面代码可以看出，如果需要通过多个class属性值来获取指定的标签，直接加.属性值。注意空格问题，.class1.class2与.class1 .class2的结果可能是不一样的，大家可以尝试一下。

与xpath一样，大家需要注意：

cssselect 返回的结果都是集合(list)
cssselect 只能作用与对象(object)上

案例

我们还是以之前的案例《获取省市区数据》，现在我们用lxml的方式重新实现一下

XPath方式

import requestsfrom lxml import etreeimport timeclass Demo():def __init__(self):base_url = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/'
        trlist = self.get_data(base_url, "provincetable",'provincetr')#查看页面，就知道所有的省所在的tr上都有唯一的class='provincetr'for tr in trlist:
            td=tr.xpath('.//td')[0]
            a=td.find('a')if a is None:continue
            print("省:" + a.text)                    #获取每个省
            time.sleep(0.5)
            c_url=base_url+a.xpath('./@href')[0]     #获取下级城市地址
            c_trlist= self.get_data(c_url, "citytable","citytr")for c_tr in c_trlist:
                c_tds=c_tr.xpath('.//td')
                a=c_tds[0].find('a')
                t_url=base_url+a.xpath('./@href')[0] #获取下级区县地址
                print('市：('+a.text +')'+c_tds[1].find('a').text)
                time.sleep(0.5)
                t_list=self.get_data(t_url,"countytable","countytr")if len(t_list)==0:
                    t_list=self.get_data(t_url,"towntable","towntr")for t_tr in t_list:
                    t_tds=t_tr.xpath('.//td')
                    a=t_tds[0].find('a')if a is None:continue
                    print('区/县：('+a.text +')'+t_tds[1].find('a').text)
    def get_data(self, url, table_attr,attr):
        response = requests.get(url)
        response.encoding = 'gb2312'                 #编码转换
        tree=etree.HTML(response.text)               #初始化生成一个XPath解析对象
        trlist = tree.xpath('//table[@class="'+table_attr+'"]//tr[@class="'+attr+'"]')return trlistif __name__ == '__main__':
    Demo()

lxml.cssselect方式

import requestsfrom lxml import etreefrom lxml.cssselect import CSSSelectorimport timeclass Demo():def __init__(self):base_url = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/'
        trlist = self.get_data(base_url, "provincetable",'provincetr')#查看页面，就知道所有的省所在的tr上都有唯一的class='provincetr'for tr in trlist:
            tds=tr.cssselect('td')for td in tds:
                a=td.cssselect('a')if len(a) ==0:continue
                print("省:" + a[0].text)           #获取每个省
                time.sleep(0.5)
                c_url=base_url+a[0].attrib['href'] #获取下级城市地址
                c_trlist= self.get_data(c_url, "citytable","citytr")for c_tr in c_trlist:
                    c_tds=c_tr.cssselect('td')
                    c_a=c_tds[0].cssselect('a')if len(c_a)==0:continue
                    t_url=base_url+c_a[0].attrib['href'] #获取下级区县地址
                    print('市：('+c_a[0].text +')'+c_tds[1].cssselect('a')[0].text)
                    time.sleep(0.5)
                    t_list=self.get_data(t_url,"countytable","countytr")if len(t_list)==0:
                        t_list=self.get_data(t_url,"towntable","towntr")for t_tr in t_list:
                        t_tds=t_tr.cssselect('td')
                        t_a=t_tds[0].cssselect('a')if len(t_a)==0:continue
                        print('区/县：('+t_a[0].text +')'+t_tds[1].cssselect('a')[0].text)
    def get_data(self, url, table_attr,attr):
        response = requests.get(url)
        response.encoding = 'gb2312'              #编码转换
        tree=etree.HTML(response.text)            #初始化生成一个XPath解析对象
        trlist = tree.cssselect('table.'+table_attr+' tr.'+attr+'')return trlistif __name__ == '__main__':
    Demo()

结果：

大家可以多研究一下代码，可以用自己的方式实现出来。

总结

本篇文章主要讲述了关于lxml模块的一些内容，主要为XPath与lxml.cssselect的基本使用。lxml还有很多其他的功能，大家可以区官网上自行学习。

贴一下官网地址：https://lxml.de/

往期精选(?猛戳可查看)

Python爬虫基础教程——正则表达式抓取入门

2020-08-30

Python 爬虫基础教程——BeautifulSoup抓取入门

2020-09-06

Python实用教程系列——VSCode Python 开发环境搭建

2020-08-01

点赞和在看一下吧

weixin_39525812

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lxml安装_Python爬虫基础教程——lxml爬虫入门

点击上方蓝色文字关注我们吧有你想要的精彩作者| 東不归出品 | Python知识学堂大家好，上次介绍了BeautifulSoup爬虫入门,本篇内容是介绍lxml模块相关教程，主要为Xpath与lxml.cssselect 的基本使用。lxml介绍引用官方的解释：lxml XML工具箱是C库libxml2和libxslt的Python绑定。它的独特之处在于它将这些库的速度和XML功能的...
复制链接

扫一扫