我不愿为你去摘悬崖上的花

某天
女孩终于鼓起勇气对男孩说:「我们分手吧」

男孩问:「为什么?」

女孩说:「倦了,就不需要理由了」

一个晚上

男孩只抽烟不说话

女孩的心也越来越凉

『连挽留都不会表达的情人

能给我什么样的快乐?』

过了许久

男孩终忍不住说:「怎么做你才能留下来?」

女孩慢慢地说:

「回答一个问题,如果你能答到我心里就答案,我就留下来。」

……………………

「比如我非常喜欢悬崖上的一朵花,而你去摘的结果是百分之百

的死亡,你会不会摘给我?」

男孩想了想说:「明天早晨告诉你答案好吗?」

女孩的心顿时灰了下来

……………………

早晨醒来,男孩已经不在

只有一张写满字的纸压在温热的牛奶杯下

第一行,就让女孩的心凉透了

「亲爱的,我不会去摘

但请容许我陈述不去摘的理由

你只会用电脑打字

却总把程序弄得一塌糊涂

然后对着键盘哭

我要留着手指给你整理程序

你出门总是忘记带钥匙

我要留着双脚跑回来给你开门

酷爱旅游的你

在自己的城市里都常常迷路

我要留着眼睛给你带路

每月“好朋友”光临时

你总是全身冰凉,还肚子疼

我要留着掌心温暖你的小腹

你不爱出门

我担心你会患上自闭症

我要留着嘴巴躯赶你的寂寞

你总是盯者电脑

眼睛给糟蹋得已不是太好了

我要好好活着

等你老了

给你修剪指甲

帮你拔掉让你懊恼的白发

拉着你的手

在海边享受美好的阳光和柔软的沙滩

告诉你一朵朵花的颜色

像你青春的脸…

所以

在我不能确定有人比我更爱你以前

我不想去摘那朵花…」

(女孩泪滴在纸上

形成晶莹的花朵)

抹净眼泪,女孩继续往下看:

「亲爱的

如果你已经看完了

答案还让你满意的话

请你开门吧

我正站在门外

手里提着你最喜欢吃的鲜奶面包…」

女孩拉开门

看见他的脸

紧张得像个孩子

只会把拧着面包的手在她眼前晃

………………
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
悬崖寻路是指在一个矩形棋盘上,一条折线路径从起点到终点,沿途如果偏离了路径会掉进悬崖而失败,通过强化学习中的Q-learning算法来实现智能的寻路。 一开始,需要将状态空间和动作空间进行明确定义,先将整个矩形棋盘划分成一个个小格子,每个格子作为一个状态,对于每个状态,有四个动作可以选择,即向上、向下、向左、向右移动一格。 然后需要建立Q-table,这是一个状态-动作二元组的表格,按照状态和动作的组合建立出来,每个表格 Cell 表示了从当前状态下采取某个动作后获得的奖励值。初始化过程中,将 Q-table 值都置为0。 接下来进行训练,从一个随机起点开始,在每个状态下选择一个动作,然后根据此动作的 Q-value 更新 Q-table,这是整个强化学习过程中最重要的一个步骤。其中,Q-value 是当前状态下采取某个动作能够获得的总期望回报值,这是由当前状态获得的即时奖励值以及在下一个状态下的最大 Q-value 值决定的。也就是说,Q-value 的更新过程是由贪心策略来决定的。 不断重复上述过程,直到到达终点或失败。训练完成后,就可以使用 Q-table 进行测试,从起点开始,根据所记录的 Q-value 值,选择最优动作,直到到达终点。 总的来说,Q-learning 算法实现悬崖寻路的过程就是在构建状态空间和动作空间的基础上,采用 Q-table 记录 Q-value 值以及使用贪心策略进行状态-动作的更新,最终实现从起点到终点的自主导航。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值