【3DBall】MlAgents案例场景代码分析

本文详细分析了3DBall场景中机器学习应用的代码实现,包括Start方法的等价实现、观察场景数据的收集、行为判断与奖励机制、训练过程的控制以及手动操作模式。通过理解这些关键点,可以深入了解如何在游戏环境中运用机器学习进行智能行为训练。
摘要由CSDN通过智能技术生成

相当于Start()方法的方法

用于一开始就执行的方法,相当于基本Unity方法中的Start方法:
该方法用于
获得掉落的球的Rigid body组件
获得小球的参数(结合下面代码显示,是获得mass值和scale,不实际获得,结合SetResetParameters()获取)
设置小球的参数(方法里面是调用了m_ResetParams获得mass值和scale的)
    public override void Initialize()
   {
   
       m_BallRb = ball.GetComponent<Rigidbody>();
       m_ResetParams = Academy.Instance.EnvironmentParameters;
       SetResetParameters();
   }

收集观察场景的各种数据

该方法时用于收集训练场景中训练所需的参数
useVecObs为一个bool值,判断是否收集,目前代码中并没发现相关改变该值的代码
收集训练对象的旋转z值
收集训练对象的旋转x值
小球与训练对象的相对位置,个人觉得是训练对象position不存在移动,所以并不需要纳入观察范围,
	相对位置比单独小球位置更准确一点
再是收集小球的速度值(官方文档说,如果不给小球的速度值给训练对象,训练效果将会大打折扣)
public override void CollectObservations(VectorSensor sensor)
    {
   
        if (useVecObs)
        {
   
            sensor.AddObservation(gameObject.transform.rotation.z);
            sensor.AddObservation(gameObject.transform.rotation.x);
            sensor.AddObservation(ball.transform.position - gameObject.transform.position);
            sensor.AddObservation(m_BallRb.velocity);
        }
    }

行为判断和奖励

该方法用于管理和做出训练对象的行为,根据对应的结果进行奖励
定义两个float类型的变量,钳制训练对象做出的行为参数的大小
第一个if:
			如果r.z在0到0.25或者-0.25到0这个区间,就执行z轴的旋转
第二个if:
			如果r.x在0到0.25或者-0.25到0这个区间,就执行x轴的旋转
第三个if:
			如果小球y轴位置比训练对象y轴坐标低-2个位置||
			小球x轴坐标远离训练对象x轴大于3个位置||
			y轴相差大于3个位置
			则:惩罚-1分,结束该步训练
	else:持续奖励0.1分
<
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值