- 博客(5)
- 收藏
- 关注
原创 David sliver第二讲之Markov process-马尔科夫过程
MDP是强化学习的数学表达,是一种全观测模式,几乎所有的强化学习问题都可以转换成MDP,若该过程所有状态都为Markov状态,该过程为MP。Markov状态只与上一个状态有关,即得到以下结论:(history and future)1) Markov状态吸收history所有的信息,以至于得到Markov状态时,可以丢弃history2) 当前Markov状态能够完全刻画未来rew...
2018-06-27 16:29:38 857
原创 David sliver第一讲之强化学习简介
强化学习是一个多面交叉的学科,运用的技术和理论包括传统机器学习、最优理论、激励系统、有限理论、运筹学等。强化学习是机器学习的一个分支,不同于监督学习和非监督学习。相比有以下特征:1.没有标签,只存在激励信号,反馈激励分数;2.反馈具有延迟性,不是即时的;3.输入数据具有动态性(agent->action->env->obs->agent)。反馈具有延迟性,可...
2018-06-25 14:00:03 666
原创 吴恩达机器学习第一周
Octave安装多元线性回归顾名思义,与单变量线性回归的区别是有多个特征值,即考虑多个影响因子。有以下符号标示:表示第i个样本的第j个值。表示第i行样本。N表示一共有几个特征值。 简化为:,且为1。多元线性回归的梯度下降定义多元线性回归的预测函数:定义梯度下降函数:注意:同时更新,j=0,…,n化简后梯度下降函数:有=1,j=0,…,n特征缩放这是一种加速梯度下降的方法。假设当前有特...
2018-04-19 15:34:06 573
原创 ADT中通过DDMS导入文件出错ddms transfer error: Read-only file system,Failed to push selection: Read-only file
ADT中通过DDMS导入文件出错ddms transfer error: Read-only file system,Failed to push selection: Read-only file system
2016-12-07 23:38:52 542
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人