Generative Adversarial Networks
文章平均质量分 77
懦夫的抉择
这个作者很懒,什么都没留下…
展开
-
GAN/Generative Adversarial Networks之种草
GAN自从14年被Goodfellow提出之后一直是AI研究的热点,其应用以及完善也是很多学者努力研究的方向。 可是,国内的文档其实很少能看到于此相关的内容,原因可能是这部分内容较新,还没有成熟的应用模式,或者是大家不太愿意去把最近的外文文献翻译过来,因为大部分对这方面有兴趣的人早就跟踪上了外文文献。我想,如果我自己把这方面的文献翻译一下的话,对于我的记忆与理解肯定是有帮助的,所以我考虑原创 2017-09-12 23:41:04 · 226 阅读 · 0 评论 -
TRPO(Trust Region Policy Optimization)(1)
最近是需要看这篇论文的。 论文主要是与策略优化相关。对于策略优化,大致可以分为基于模型的与无模型的。基于模型的策略优化主要是传统的优化,大体是利用传统控制器配合上监督学习的方法做策略搜索,可以认为是指导策略搜索。无模型的策略搜索方式主要是与统计相关的与数学有较大联系的搜索方法,包括随机策略搜索方法和确定策略搜索方法,随机策略搜索方法包括策略梯度方法、统计学习方法、路径积分方法。其中,TR原创 2017-12-07 21:15:26 · 5026 阅读 · 0 评论 -
TRPO(trust region policy optimization)(2)
上一篇讲到了作者要展开优势函数,然后利用对状态的处理来化简函数。这边我一个不太理解的问题在于对优势函数的折扣化,也就意味着随着时间的推移,优势越显得无用,这样看起来是不太合理的,因为优势显然应该是一致的,怎么会随着时间的推迟作用变小呢?重新思考一下,其实在初始态我们是可能遇到所有的状态的,优势函数是对所有的状态做累加,那么初始状态如果遍历了所有状态就可以对所有状态做累加。这边用了一个技巧是借用旧策原创 2017-12-09 23:46:22 · 1192 阅读 · 0 评论