1.深度学习:任何通过神经网络的训练和学习都是深度学习
2.强化学习:基于MDP(马尔可夫决策过程),通过状态(state),决策(action),以及奖励(reward)和转化概率来进行学习的就是强化学习,通过求Q*(state,action),求pai*,复杂一点就可能不知道奖励和转化概率
3.深度强化学习:深度学习和强化学习的结合,就是通过定义一个函数Q(s,a)=w1*feature1(s,a)+w2*feature2(s,a)+..+wn*featuren(s,a),利用神经网络拟合Q(s,a)来求出[w1,w2,..,wn]的学习就是深度强化学习.