【Python学习】Day-032 Day-033 xpath；xml数据格式、多线程、线程池、常用命令

ChenAi140

已于 2022-08-22 09:28:27 修改

阅读量459

点赞数 1

分类专栏： Python学习文章标签： python 学习 xml

于 2022-08-20 10:44:16 首次发布

本文链接：https://blog.csdn.net/ChenAi_140/article/details/126437022

版权

Python学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

文章目录

1. xml与xpath

1.1 xpath基本概念

树：整个html(xml)代码结构就是一个树结构
节点：树结构中的每一个元素(标签)就是一个节点
根节点(根元素): html或者xml最外面的那个标签(元素)
节点内容：标签内容
节点属性：标签属性

1.2 xml数据格式

xml和json一样，是一种通用的数据格式(绝大部分编程语言都支持的数据格式)
xml是通过标签（元素）的标签内容和标签属性来保存数据的。

<supermarket name="永辉超市" address="肖家河大厦">
    <staffs>
        <staff  id="s001" class="c1">
            <name>小明</name>
            <position>收营员</position>
            <salary>4000</salary>
        </staff>
        <staff  id="s002">
            <name>小花</name>
            <position>促销员</position>
            <salary>3500</salary>
        </staff>
        <staff  id="s003">
            <name>张三</name>
            <position>保洁</position>
            <salary>3000</salary>
        </staff>
        <staff  id="s004" class="c1">
            <name>李四</name>
            <position>收营员</position>
            <salary>4000</salary>
        </staff>
        <staff  id="s005">
            <name>王五</name>
            <position>售货员</position>
            <salary>3800</salary>
        </staff>
    </staffs>
    
    <goodsList>
        <goods discount="0.9">
            <name>泡面</name>
            <price>3.5</price>
            <count>120</count>
        </goods>
        <goods class="c1">
            <name>火腿肠</name>
            <price>1.5</price>
            <count>332</count>
        </goods>
        <goods>
            <name>矿泉水</name>
            <price>2</price>
            <count>549</count>
        </goods>
        <goods discount="8.5">
            <name>面包</name>
            <price>5.5</price>
            <count>29</count>
        </goods>
    </goodsList>
</supermarket>

1.3 xpath基本语法

创建树结构获取树的根节点
etree.XML(xml数据)
etree.HTML(html数据)

from lxml import etree
with open('../file/data.xml', encoding='utf-8') as f:
    root = etree.XML(f.read())

根据xpath获取指定标签
节点对象.xpath(路径) - 返回路径对应的所有的标签，返回值是列表，列表中的元素是标签对象(节点对象)

路径的写法：
- 绝对路径: 用"/"开头的路径 - /标签在树结构中的路径 (路径必须从根节点开始写)
- 相对路径: 路径开头用"."标签当前节点(xpath前面是谁，'.'就代表谁), "…"表示当前节点的上层节点
- 全(任意)路径: 用"//"开头的路径 - 在整个树中获取标签
注意：绝对路径和全路径的写法以及查找方式和是用谁去点的xpath无关

# 绝对路径
result = root.xpath('/supermarket/staffs/staff/name/text()')
print(result)

# 相对路径
result = root.xpath('./staffs/staff/name/text()')
print(result)

staff1 = root.xpath('./staffs/staff')[0]            # 获取第一个员工对应的staff标签
result = staff1.xpath('./name/text()')
print(result)

result = staff1.xpath('../staff/name/text()')
print(result)

# 全(任意)路径
result = root.xpath('//name/text()')
print(result)

result = staff1.xpath('//goods/name/text()')
print(result)

# 运行结果
'''
['小明', '小花', '张三', '李四', '王五']
['小明', '小花', '张三', '李四', '王五']
['小明']
['小明', '小花', '张三', '李四', '王五']
['小明', '小花', '张三', '李四', '王五', '泡面', '火腿肠', '矿泉水', '面包']
['泡面', '火腿肠', '矿泉水', '面包']
'''

获取标签内容
节点对象.xpath(获取标签的路径/text()) - 获取指定路径下所有标签的标签内容

result = root.xpath('//position/text()')
print(result)

# 运行结果
'''
['收营员', '促销员', '保洁', '收营员', '售货员']
'''

获取标签属性
节点对象.xpath(获取标签的路径/@属性名)

result = root.xpath('/supermarket/@name')
print(result)

result = root.xpath('//staff/@id')
print(result)

# 运行结果
'''
['永辉超市']
['s001', 's002', 's003', 's004', 's005']
'''

谓语(条件)

# 1) 位置相关谓语
# [m] - 第m个
result = root.xpath('//staff[1]/name/text()')
print(result)
# [last()] - 最后第一个
# [last()-m] - 第n-m个/倒数第m+1个
# [position()<m]、[position()>m]、[position()<=m]、[position()>=m]
# 前m-1个、后n-m个、前m个、后n-m+1个


# 2) 属性相关谓语
# [@属性名=属性值] - 获取指定属性是指定值的标签
result = root.xpath('//staff[@class="c1"]/name/text()')
print(result)

# [@属性名]
result = root.xpath('//goods[@discount]/name/text()')
print(result)


# 3) 子标签内容相关谓语 - 根据子标签的内容来筛选标签
# [子标签<数据]、[子标签>数据]、[子标签<=数据]、[子标签>=数据]、[子标签=数据]
result = root.xpath('//goods[price=2]/name/text()')
print(result)

# 运行结果
'''
['小明']
['小明', '李四']
['泡面', '面包']
['矿泉水']
'''

通配符

# 写路径的时候，用*来表示任意标签或任意属性
result = root.xpath('//staff[1]/*/text()')
print(result)

result = root.xpath('//*[@class="c1"]/name/text()')
print(result)

result = root.xpath('//goods[@*]/name/text()')
print(result)

# 运行结果
'''
['小明', '收营员', '4000']
['小明', '李四', '火腿肠']
['泡面', '火腿肠', '面包']
'''

若干

# 路径1|路径2|。。。 - 获取所有路径的内容
result = root.xpath('//goods/name/text()|//staff/position/text()')
print(result)

# 运行结果
'''
['收营员', '促销员', '保洁', '收营员', '售货员', '泡面', '火腿肠', '矿泉水', '面包']
'''

2. 多线程

2.1 基本理论

进程和线程
- 进程: 一个正在运行的应用程序就是一个进程，每个进程均运行在其专门且受保护的内存空间中
- 线程：线程是进程执行任务的基本单元（一个进程中的任务都是在线程中执行的）
进程就是车间，线程就是车间里面的工人。
一个进程中默认有一个线程，这个线程叫主线程。
线程的特点
如果在一个线程中执行多个任务，任务是串行执行的。
（当一个程序中有很多个任务的时候，如果只有一个线程，那么程序的执行效率会很低）
多线程
一个进程中有多个线程就是多线程。
多线程执行任务的时候，多个任务可以同时(并行)执行。
多线程原理
一个cpu同一时间只能调度一个线程，多线程其实是cpu快速的在多个线程之间进行切换，造成多个线程同时执行的假象。
（提高cpu利用率）

2.2 Python使用多线程的方法

一般使用方法
多个线程可以通过循环来创建

from threading import Thread
from time import sleep
from datetime import datetime

def download(name):
    print(f'{name}开始下载：{datetime.now()}')
    sleep(2)
    print(f'{name}下载结束:{datetime.now()}')


def main():
    # 1)创建线程对象
    """
    线程对象 = Thread(target=函数, args=元组)
    a.函数  - 可以是普通函数函数名，也可以是匿名函数。这个函数就是需要子线程中执行的任务。
    b.元组  - 元组中的元素就是在子线程中调用target对应的函数的时候需要的参数
    """
    time1 = datetime.now()
    t1 = Thread(target=download, args=('肖生克救赎',))
    t2 = Thread(target=download, args=('霸王别姬',))
    t3 = Thread(target=download, args=('阿甘正传',))

    # 2)启动线程 - 让子线程调用对应的函数
    t1.start()
    t2.start()
    t3.start()
    time2 = datetime.now()
    print(time2-time1)


if __name__ == '__main__':
    main()

# 运行结果
'''
肖生克救赎开始下载：2022-08-20 10:05:23.121123
霸王别姬开始下载：2022-08-20 10:05:23.125239
阿甘正传开始下载：2022-08-20 10:05:23.126225
0:00:00.006098
肖生克救赎下载结束:2022-08-20 10:05:25.137502阿甘正传下载结束:2022-08-20 10:05:25.137502 霸王别姬下载结束:2022-08-20 10:05:25.137502
'''

线程等待(阻塞)
上面的程序存在一个明显的问题，那就是主线程提前结束，而子线程还在运行，为避免这种情况一般会加入线程等待(阻塞)

# 在main()中加入线程阻塞
def main():

    time1 = datetime.now()
    t1 = Thread(target=download, args=('肖生克救赎',))
    t2 = Thread(target=download, args=('霸王别姬',))
    t3 = Thread(target=download, args=('阿甘正传',))

    t1.start()
    t2.start()
    t3.start()

    # 3) 加入线程阻塞
    t1.join()
    t2.join()
    t3.join()

    time2 = datetime.now()
    print(time2-time1)

# 运行结果
'''
肖生克救赎开始下载：2022-08-20 10:11:27.210833
霸王别姬开始下载：2022-08-20 10:11:27.213781
阿甘正传开始下载：2022-08-20 10:11:27.213781
霸王别姬下载结束:2022-08-20 10:11:29.214501
肖生克救赎下载结束:2022-08-20 10:11:29.222479
阿甘正传下载结束:2022-08-20 10:11:29.229458
0:00:02.019667
'''

3. 线程池

管理多个线程的工具
线程池工作原理：先创建指定个数的线程，然后添加多个任务(任务数量>线程数量)，让线程池中的线程去执行添加的所有任务(线程池中的每个线程可能会执行多个任务)

submit()
一次添加一个任务：submit(函数, 实参1, , 实参2, 实参3, ...)
注意：实参的数量由前面的函数在调用的时候需要的实参来决定
map()
同时添加多个任务: map(函数, 参数对应的序列)
注意：使用map添加多个任务的时候，任务对应的函数必须是有且只有一个参数的函数
关闭线程池
线程池关闭后无法再添加新的任务，并且会阻塞当前线程等待整个线程池的任务都完成
shutdown()

from time import sleep
from datetime import datetime
from random import randint
from concurrent.futures import ThreadPoolExecutor


def download(name):
    print(f'{name}开始下载:{datetime.now()}')
    sleep(randint(2, 7))
    print(f'{name}下载结束:{datetime.now()}')


def main():
    # 使用线程池下载1000个电影
    # ThreadPoolExecutor(线程数最大值)
    pool = ThreadPoolExecutor(3)

    pool.submit(download, '肖生克的救赎')
    pool.submit(download, '霸王别姬')

    pool.map(download, ['V字仇杀队', '恐怖游轮', '沉默的羔羊'])

    pool.shutdown()
    print('==============完成！=============')


if __name__ == '__main__':
    main()

# 运行结果
'''
肖生克的救赎开始下载:2022-08-20 10:22:28.727568
霸王别姬开始下载:2022-08-20 10:22:28.735995
V字仇杀队开始下载:2022-08-20 10:22:28.736993
肖生克的救赎下载结束:2022-08-20 10:22:30.738571
恐怖游轮开始下载:2022-08-20 10:22:30.738571
霸王别姬下载结束:2022-08-20 10:22:32.747770
沉默的羔羊开始下载:2022-08-20 10:22:32.754632
V字仇杀队下载结束:2022-08-20 10:22:33.741739
恐怖游轮下载结束:2022-08-20 10:22:34.747225
沉默的羔羊下载结束:2022-08-20 10:22:35.759421
==============完成！=============
'''

通过with操作来自动关闭多线程

def main():
    # 使用线程池下载1000个电影
    # ThreadPoolExecutor(线程数最大值)
    movies = ['肖生克的救赎', '霸王别姬', 'V字仇杀队', '恐怖游轮', '沉默的羔羊']
    with ThreadPoolExecutor(max_workers=3) as pool:
        for i in movies:
            pool.submit(download, i)

    print('==============完成！=============')

4. 常用的指令

常见的指令操作

执行指令的工具： Windows - 命令提示符(cmd) 、Mac - 终端

运行python程序： - 运算程序的计算机必须先安装python环境

# win
python py文件路径
  
# mac:  
python3 py文件路径

进入文件夹: cd

# 注意：如果是windows操作系统，cd操作如果要跨盘需要先切盘，然后再cd
# 切盘方法：
D:
cd  文件夹相对路径、文件夹绝对路径

查看当前文件夹的内容

# win:  
dir

# Mac：
ls

用指令创建虚拟环境

第一步：找到一个用来放虚拟环境的文件夹
第二步：通过cd指令进入到存放虚拟环境的文件夹中
第三步：创建虚拟环境

python -m venv 虚拟环境名
python3 -m venv 虚拟环境名

第四步：激活虚拟环境

(mac) source  虚拟环境目录/bin/activate
(windows)  虚拟环境目录\Scripts\activate.bat
cmd要写绝对路径，否则会报错，power shell可以写相对路径

第五步：退出虚拟环境

deactivate

常用pip指令(pip - Python包管理工具)

	pip list		-		查看当前环境已经安装过的所有的第三方库
	 
    pip install  第三方库名称		-		下载并且安装指定的第三方库
	pip install  第三方库名称 -i 镜像地址		-		在指定的镜像地址中下载安装
	pip install  第三方库名称==版本号	-i   镜像地址
	
	pip install  第三方库名称1   第三方库名称2  

	pip freeze > 依赖文件名  	-	生成依赖文件	
	pip install -r 依赖文件路径			-		批量安装	

	pip uninstall 第三方库名称   -  卸载指定的第三方库