![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AI
文章平均质量分 57
jomoly
这个作者很懒,什么都没留下…
展开
-
从PyTorch官方的一篇教程说开去(3.2 - Loss函数或叫Cost函数)
对于我们的 Q 网络,损失函数 𝐿可以定义为实际的 Q 值和预测的 Q 值之间的差异: 𝐿=1/2*∑(𝑠,𝑎,𝑠′,𝑟)∈𝐵 (𝑄(𝑠,𝑎)−(𝑟+𝛾max𝑎′𝑄(𝑠′,𝑎′)))2。损失函数 𝐿衡量的是 Q 网络的预测与实际观察到的预期回报之间的差距。训练最常见的做法,就是表现的好奖励。所以我们关心的是,在一连串的决策中,如何能使累积的奖励最大。我们见招拆招,一边预测下一步怎么做,一边又根据反馈来的参数,对预测做出调整。通过刚才的一篇例子中的代码,相信已经非常直观的说明了求极值的GD梯度下降算法。原创 2024-07-19 01:58:29 · 420 阅读 · 0 评论 -
从PyTorch官方的一篇教程说开去(3.1 - GD 梯度下降法)
回到教程中,我们需要给AI程序(agent)准备大脑(Q网络,本例是3层的神经网络,用于储存,以及匹配输入和输出)以及策略(Q函数,这个函数用于给出在状态S下的动作A,并计算误差L以及预期回报R)。算法初始化时候,基本上是使用类似于醉汉”随机游走“的策略,笨的不要不要的,而用来化腐朽为神奇的策略的关键点,就是能够让误差L最小,并且最快收敛。在openAI以前,我们所讨论的“人工智能”基本上都是“人工智障”,即时在某些方面表现得非常出色,击败了世界冠军,但最多算个某领域的“专才”而不是“通才”。原创 2024-07-19 01:23:09 · 518 阅读 · 0 评论 -
从PyTorch官方的一篇教程说开去(2 - 源码)
先上图,上篇文章的运行结果,可以看到,算法在迭代了200来次左右达到人生巅峰,倒立摆金枪不倒,可以扛住连续200次操作。不幸的是,然后就出现了大幅度的回撤,每况愈下,在600次时候居然和100次的时候一个水平。前置条件是安装老黄家的Cuda,以及准备好python环境(cuda暂不支持python 3.12),安装好需要的库,需要的可以看我此前的博文。事实上,训练充满了随机性,也不乏非常漂亮的曲线,可以用来tree new bee,这也是AI领域很好水论文的体现吧。1)只能处理离散模型,数据量要求极高;原创 2024-07-18 21:02:27 · 335 阅读 · 0 评论 -
从PyTorch官方的一篇教程说开去(1 - 初心)
原文在此,喜欢读原汁原味的可以自行去跟,这是一个非常经典和有学习意义的例子,在此向老爷子们致敬 -开源文化好是好,但是“公地的悲哀”这点避不开,很多论文/教程的代码和环境配置,是存在问题的,有些源于依赖库的变迁(上梁不正,python语言自己都不承诺版本向下兼容),有些是以讹传讹,里外里浪费大家的很多时间。当然,其实也是提醒大家多个心眼,不要只看文章如何 tree new bee,拿到代码先在环境中跑一跑,心里有数了再引用或者转载。第一个问题是,为啥要学习强化学习?原创 2024-07-18 20:02:41 · 870 阅读 · 0 评论 -
Gymnasium 借游戏来学习人工智能
既然有了免费的linux系统+GPU,干脆演示一下使用drive+colab套件来训练模型。如果你要训练模型,记得选GPU,默认是CPU ,两者的速度完全不可同日而语。为了保持连接避免断线,请记得在浏览器的console(F12)输入 -现在测试一下环境吧 =原创 2024-07-10 00:05:44 · 472 阅读 · 1 评论 -
你想让ai干苦力,ai会叫你没脾气(问题实例)
6/(嘿哥们,我真的没看见坑......)并没有分析过函数的参数的可用性,缺少参数还算好的,如果是参数填反了或者似是而非,后面要花更多的时间来debug。比如,应该使用mp3_decoder_init的地方,使用audio_element_init,导致core_dump;比如,无法分清idf和adf框架的区别,倾向使用idf的事件库和处理机制;所以,仅以个人浅见,ai辅助学习,快速定位文档中的核心问题是很有帮助的。比如,以下处理只是说,该有输入了,至于输入是啥从哪里来,你要自己替换。原创 2024-06-02 16:49:36 · 174 阅读 · 0 评论 -
请陪伴Kimi和GPT成长
你好,我想要生成一个基督山伯爵 主角 埃德蒙唐泰斯的肖像画,并为之思考关键词,请以一个资深文学评论家,资深影评家的身份,帮我进行以下几个步骤 - part-1/ 罗列出所有唐泰斯的外貌的法文描述,并翻译成英文;之前就听说GPT-4是在GPT-3的基础上,用muiti-agent的办法交互训练的,那么一个显然的推理就是,假如在提示词使用的过程中,合理的分段part_1 - part_n,通过持续优化每一part的办法,来提升整体的回答质量,是阳光大道。如封面图,居然馅里面还有蜡烛,我无语。原创 2024-04-17 21:13:45 · 507 阅读 · 0 评论 -
老兵(11)
人物形象单薄,背景不够丰富,修改多次提词也没有明显改观,反倒是直接用电影剧照做范本,做出来的更有气质一些,但是这跟依文生图的初衷就相去甚远了。没有用过midjourney,所以不发表评论,从看到的例子来说对于专业选手更适配,不过对于玩票或者白嫖党,dall-e足够了。当然,后者生成的顺拐了,但是总比手部残疾的加跟手指头要好,页面元素更丰富,和龙年节后硬件工程师返工的工作台这样的主题也更相宜。当时就很开心,因为一直想着把一些文案图像化,做成漫画的形式,或者个人想要diy一些小游戏时候,美工就不用那么凑合了。原创 2024-02-17 15:20:33 · 456 阅读 · 0 评论