python中进程、线程开发详解
进程
进程是一个具有独立功能的程序在一个数据集上的一次动态执行的过程,是操作系统进行资源分配和调度的一个独立单位,是应用程序运行的载体。进程一般由程序,数据集合和进程控制块三部分组成。
进程是拥有资源和独立运行的最小单位,也是程序执行的最小单位。
进程实现
# 导入multiprocessing
import multiprocessing
import time
# 定义函数就是一个程序集
def test():
# 进程名
pname = multiprocessing.current_process().name
# 进程id
pid = multiprocessing.current_process().pid
print(pname,pid)
if __name__ == '__main__':
# 创建进程
p = multiprocessing.Process(target=test)
# 开始进程
p.start()
while True:
print('进程是否活着',p.is_alive())
time.sleep(1)
多进程实战
import requests
from lxml import etree
import multiprocessing
import time
import json
base_url = 'https://wh.fang.lianjia.com/loupan/pg{}/'
# area_url = 'https://wh.fang.lianjia.com/loupan/caidian/pg1/'
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36"
}
# 获取指定区域的房源
def get_house(name,url):
for x in range(1,5):
url = url.format(x)
response = requests.get(url, headers=headers)
res = response.text
html = etree.HTML(res)
div = html.xpath("//ul[@class='resblock-list-wrapper']/li")
for i in div:
res_house = []
house_name = i.xpath('.//div[@class="resblock-name"]//a/text()')[0]
house_type = i.xpath('.//div[@class="resblock-name"]//span[1]/text()')[0]
house_sy = i.xpath('.//div[@class="resblock-name"]//span[2]/text()')[0]
house_number = i.xpath('.//span[@class="number"]/text()')[0]
# print(house_name,house_type,house_sy,house_number)
res_house.append({'area': name, 'house_name': house_name, 'house_type': house_type, 'house_sy': house_sy,
'house_number': house_number})
with open('lianjia.txt','a+',encoding='utf-8') as fp:
fp.write(json.dumps(res_house,ensure_ascii=False)+'\n')
# 中文不转义
def get_area(url):
area_url = []
response = requests.get(url,headers=headers)
res = response.text
html = etree.HTML(res)
uls= html.xpath("//ul[@class='district-wrapper']")
for ul in uls:
city_name =ul.xpath('./li/text()')
city_piny = ul.xpath('./li/@data-district-spell')
for x in range(len(city_piny)):
c_url = 'https://wh.fang.lianjia.com/loupan/'+city_piny[x]+'/pg{}/'
area_url.append({'name':city_name[x],'url':c_url})
return area_url
if __name__ == '__main__':
base_url = 'https://wh.fang.lianjia.com/loupan/'
# 获取所有区的 名字和 url地址
a_list = get_area(base_url)
# print(a_list)
p_list = []
for aa in a_list:
name = aa.get('name')
url = aa.get('url')
# 每个区开辟一个进程
# print(get_house(name,url))
p = multiprocessing.Process(target=get_house, args=(name, url))
p.start() # 开启进程
p_list.append(p) # 把该进程放到列表中
#
for p in p_list: # 列表中都是已经开启的进程
p.join() # 一个区爬完了 另外一个区再执行
# 从头开始轮着结束
线程
线程是程序执行中一个单一的顺序控制流程,是程序执行流的最小单元,是处理器调度和分派的基本单位。一个进程可以有一个或多个线程,各个线程之间共享程序的内存空间(也就是所在进程的内存空间)。
线程和进程的区别
-
线程是程序执行的最小单位,而进程是操作系统分配资源的最小单位;
-
一个进程由一个或多个线程组成,线程是一个进程中代码的不同执行路线
-
进程之间相互独立,但同一进程下的各个线程之间共享程序的内存空间(包括代码段,数据集,堆等)及一些进程级的资源(如打开文件和信
号等),某进程内的线程在其他进程不可见;
- 调度和切换:线程上下文切换比进程上下文切换要快得多