登录第二天,这就是工作,一切趋于稳定,思维的火花慢慢迸发了,啃代码比想象中的好些~


恩 平稳着陆了。

早上的绵绵细雨让我不得不选择公车,一路站到底。这样来回比骑车时间上要长半个小时了,也不见得骑车就累些。

HR小白小姐今天给了我RTX的帐号,oyeah,这是企业内部交流的IM软件,非常方便,我甚至能通过这个直接和CEO对话。企业内部部门分得如此细致,一目了然,方便的来。末了还要到一个储物箱,哈哈,待我真不错,就是上下班的时候穿着短裤短袖跑鞋在办公区出没自己都感觉怪怪的,怎么没人拦住我说“哪里来的”

可惜的是实习生没有Internal的帐号,没有权利查看这个内部的知识库,算啦,一模一样咋叫实习呢。

今天的座位还是和昨天一样在办公大厅区,不过Jason老大告诉我一件兴奋的事情,明天技术组有3位要出差,于是我可以和自己的部门在一起啦,我要好好体验一下团队开发的感觉!诶,至少在自己啃代码的时候耳边出现的是IT术语而不是电话客服~~~

恩恩,中午吃饭的时候和Vincent谈了一些关于我们那个“开源ERP可行性”的项目,取得了一些在如何调研执行上建议。受访公司凭什么花时间给你们做调查做问卷做采访?我们去采访到底找什么部门呢?

现在总结有三,一来这是大学生的社会实践项目,有一定切实意义存在的。二来我们<应该承诺在调查完成后把整体调查报告反馈给那些受访企业>,可能我们的信息会有用。第三是我们可能考虑开拓一下思路,或许对于开发公司的那边,我们可以技术开发部和市场部都尽力去拜访一下,如果公司对我们的课题感兴趣,说不定会和我们仔细聊聊。

Vincent还建议我把我们的项目说明给精简一下,然后用RTX和AMT的众多优秀顾问谈一下这个挺有意义的项目,或许有人会给我出出主意把我们引荐给AMT的客户,或许运气好AMT高层就直接把我叫去喝茶了,哇咔咔。

其实日志的主要内容是记录自己的本职工作的。今天对着浏览器,VS,以及MSDN Library把WWW主站首页给啃完了,所涉及到的关键方法和类都看懂了,诶,. net framework类库是复杂啊,咋能完全掌握呢?

明天开始啃分站的代码了,这个会是更大的挑战,毕竟首页的东西还是很少的。
+U了要。GL HF
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Q表的Q值趋于稳定是通过不断迭代更新Q值函数来实现的。在Q-learning算法,代理通过与环境的交互来不断更新Q值函数,直到收敛到最优的Q值。 Q-learning算法的更新步骤如下: 1. 代理观察当前状态 s,并基于当前的Q值函数选择一个动作 a(例如使用ε-greedy策略)。 2. 代理执行动作 a,观察环境的反馈,得到新的状态 s' 和即时奖励 r。 3. 代理根据新状态 s',使用一定的策略(例如ε-greedy策略)选择下一步动作 a'。 4. 代理使用以下公式来更新Q值函数:Q(s, a) = Q(s, a) + α * (r + γ * max(Q(s', a')) - Q(s, a))。 其,α 是学习率(控制更新的步长),γ 是折扣因子(控制对未来奖励的重视程度),max(Q(s', a')) 表示在新状态 s' 下可以获得的最大Q值。 通过不断重复执行上述步骤,代理会逐渐更新Q值函数,并逐渐收敛到最优的Q值。随着时间的推移,Q值会趋于稳定,即不再发生显著变化。 当代理达到了某个停止条件(例如达到最大迭代次数或达到一定的收敛阈值),可以认为Q值已经足够稳定,Q表的Q值可以被视为代理在每个状态下采取每个动作的最优估计。这样,代理就可以根据Q值来做出最优决策,选择具有最大Q值的动作。 需要注意的是,Q值的稳定性取决于学习率和折扣因子的设置,以及与环境的交互次数。较小的学习率和较高的折扣因子可以帮助Q值更快地收敛,但同时也可能导致过早收敛或局部最优解。因此,在实际应用,需要根据具体问题和环境进行调整和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值