CartPole-v1线性模型局限

本文分析了CartPole-v1问题中线性模型的局限,指出仿射函数无法捕捉非线性关系,导致信息丢失。线性模型仅能处理特定情况,无法应对所有样本,特别是在角度和角速度变化量的关系上。解决方案是引入非线性能力,如增加神经网络层数和调整激活函数。
摘要由CSDN通过智能技术生成

CartPole-v1线性模型局限 - 神经元非线性能力

背景

上篇文章有尝试使用最简单的单一神经元来解决CartPole-v1问题,模型比较简单,但是会存在两个比较明显的问题。

针对 问题2 大部分回合500,但是后期仍会出现回报较低的情况,最近几天学习了一些资料,这篇文章尝试着从数学的角度对其做一个解释。

从仿射函数说起

这里直接一点,先给出仿射函数(affine function)的公式:

a = b + Σ i = 1 n w i x i a = b + \Sigma_{i=1}^nw_ix_i a=b+Σi=1nwixi

下面是神经元的计算公式:

z = w x + b z = wx + b z=wx+b
a = σ ( z ) a = \sigma(z) a=σ(z)

可以看出,神经元实际上就是仿射函数和激活函数组成的复合函数。

仿射函数的计算表示

这里我们拿到向量的维度里来描述仿射函数。形式上,向量的内积跟去掉偏置(bias)的向量内积在形式上是等价的。

假设 x , y x, y x,y n n n维向量,向量内积计算公式:

< x , y x, y x,y> = x 1 y 1 + x 2 y 2 + . . . + x n y n = Σ i = 1 n x i y i = x_1y_1 + x_2 y_2 + ... + x_ny_n = \Sigma_{i=1}^nx_iy_i =x1y

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值