另一篇讲进程和线程的文章

一、进程和线程

一个正在执行的程序叫作进程(process), 进程要占用系统资源。进程执行过程中的控制线索叫作线程(Thread), 程序计数器的状态及CPU中其它寄存器的状态显示了该控制线索。

二、为什么需要多进程/线程

记得DOS时有个程序被大家奉为后台操作的经典,那就是Print.EXE(由MS提供),用于后台打印,可从一定程度上实现多任务,但DOS并不是一个多任务的环境,所以勉强实现多任务时限制太多。随后有了Win 3.X,虽然OS支持多任务,但严格说来对多进程的支持并不够,主要表现在进程间通信方面提供的支持很少,一些传统IPC方式都没提供。后来在WinNT上完全实现了多进程/多线程支持,当然现在的Win9X/2K都完全提供这方面的支持。

什么是进程(Process):普通的解释是,进程是程序的一次执行。

什么是线程(Thread):线程可理解为进程中执行的一段程序片段。在多任务环境中,下面的概念可帮我们理解两者间差别:

进程间是独立的,这表现在内存空间,上下文环境,而线程运行在进程空间内。一般来讲(不使用特殊技术)进程是无法突破进程边界存取其他进程内的存储空间,而线程由于处于进程空间内,所以同一进程所产生的线程共享同一内存空间。

同一进程中的两段代码不能够同时执行,除非引入线程。线程是属于进程的,当进程退出时,该进程所产生的线程都会被强制退出并清除。线程占用的资源要少于进程所占用的资源。

进程和线程都可以有优先级。在线程系统中,进程也是一个线程。可将进程理解为一个程序的第一个线程。一个最简单的例子就是在屏幕上画多个跳动的小球,我们对每个球的绘制都可采用一个线程来完成。但象这样的线程间完全独立没有影响和数据交换的情况是很少的。

下面我们看一个例子,一个应用要完成两个任务:每次产生1000个随机数写入文件并从文件中读出数据并以该随机数为圆心画圆,对该操做进行100次,并使用100个不同的文件保存文件。传统做法如下:

void do_this(void){

for(int i=0; i<100; i++){

/// step 1generate 1000 randam numberwrite to file

/// step 2read from filedraw circle

}

}

如果引入多进程的概念,则实现方法可以改为:

void do_this(void){

CreateProcess("do_rand.exe",...);

CreateProcess("draw_circle.exe",...);

}

//do_rand.exe

void do_rand(void){
for(int i=0;i<100;i++){

/// step 1

generate 1000 randam number;

write to file;
wait draw_circle finish last task
tell draw_cricle data ready

}

}

//draw_circle.exe
void draw_circle(void){

for(int i=0;i<100;i++){

/// step 2

set flag of last task finish
wait data ready
read from file;
draw circle;

}
}

在多进程中我们引入更多的控制手段,首先do_rand在准备好数据后必须等待draw_circle处于空闲状态,这样做的原因是:只有一个进程在进行画圆操作,所以必须保证当前提交的data ready请求能够被接收。由于使用了不同的文件所以不需要对文件的使用情况也进行判断。

如果使用线程,我们可以进一步的改造程序,取消使用文件来保存数据,而用全局变量来保存数据:

void do_this(void){

CreateThread("do_rand",...);//参数为线程入口而不是执行程序
CreateThread("draw_circle",...);

}
global int giRandNum[1000];
void do_rand(void){

for(int i=0;i<100;i++){

/// step 1

local int iRandNum[1000];

generate 1000 randam number;

get access of giRandNum;

memcpy(giRandNum,iRandNum,...);

release access of giRandNum;

wait draw_circle finish last task

tell draw_cricle data ready
}

}
void draw_circle(void){

for(int i=0;i<100;i++){

/// step 2

set flag of last task finish
wait data ready
local int iRandNum[1000];
get access of giRandNum;
memcpy(iRandNum,giRandNum,...);
release access of giRandNum;
draw circle;

}
}

这里使用全局变量保存数据,而程序使用的资源要小于前面使用进程的情况,且效率相同。这里引入对全局数据使用情况的判断,是为保证全局数据在被draw_circle读取的时候不会被do_rand修改。这就是一个数据同步的概念。

通过上面的例子可以看出使用多线程时可提高效率又能够节省资源。最后一点线程在单CPU主机上与多进程相比是没有的效率上的提高,而在多CPU的主机上不同的线程代码可以分配到不同的主机上执行。但多进程/线程与单进程相比的在效率和速度上的优点很很明显的。

随着多线进程/程序的采用同时也会产生很多其他的问题,比如数据如何交换(在上面的例子中我们使用文件来保存中间数据,当然还有很多的方法来在进程间交换数据),数据如何同步(保证某些数据在同时只被一段代码进行写操作),如何协调进程/线程间的操作(一个进程的继续执行是否要等待其他进程完成某些操作)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于Tensorflow、OpenAI搭建的强化学习框架,训练机器自动操盘 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。
尝试用基于值函数逼近的强化学习方法玩经典的马里奥游戏,取得了一定成果 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点在于没有监督数据,只有奖励信号。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。 强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。强化学习问题在信息论、博弈论、自动控制等领域有得到讨论,被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。 强化学习在工程领域的应用也相当广泛。例如,Facebook提出了开源强化学习平台Horizon,该平台利用强化学习来优化大规模生产系统。在医疗保健领域,RL系统能够为患者提供治疗策略,该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。 总的来说,强化学习是一种通过智能体与环境交互,以最大化累积奖励为目标的学习过程。它在许多领域都展现出了强大的应用潜力。
GPT, 通常指的是“Generative Pre-trained Transformer”(生成式预训练转换器),是一个在自然语言处理(NLP)领域非常流行的深度学习模型架构。GPT模型由OpenAI公司开发,并在多个NLP任务上取得了显著的性能提升。 GPT模型的核心是一个多层Transformer解码器结构,它通过在海量的文本数据上进行预训练来学习语言的规律。这种预训练方式使得GPT模型能够捕捉到丰富的上下文信息,并生成流畅、自然的文本。 GPT模型的训练过程可以分为两个阶段: 预训练阶段:在这个阶段,模型会接触到大量的文本数据,并通过无监督学习的方式学习语言的结构和规律。具体来说,模型会尝试预测文本序列中的下一个词或短语,从而学习到语言的语法、语义和上下文信息。 微调阶段(也称为下游任务训练):在预训练完成后,模型会被应用到具体的NLP任务中,如文本分类、机器翻译、问答系统等。在这个阶段,模型会使用有标签的数据进行微调,以适应特定任务的需求。通过微调,模型能够学习到与任务相关的特定知识,并进一步提高在该任务上的性能。 GPT模型的优势在于其强大的生成能力和对上下文信息的捕捉能力。这使得GPT模型在自然语言生成、文本摘要、对话系统等领域具有广泛的应用前景。同时,GPT模型也面临一些挑战,如计算资源消耗大、训练时间长等问题。为了解决这些问题,研究人员不断提出新的优化方法和扩展模型架构,如GPT-2、GPT-3等,以进一步提高模型的性能和效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值