
可解释可信机器学习 - 因果
文章平均质量分 88
可解释可信机器学习 - 因果
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
Asimov的预言与《Reflexion》的Prompt启示:机器人心理学家的新纪元
正如Asimov的机器人心理学家深入探索机器人的思维,现代的AI研究者也在努力理解和改进机器学习模型的行为。这篇论文,就为我们提供了一个全新的视角。大型语言模型(LLMs)越来越多地被用于与外部环境(如游戏、编译器、APIs)互动作为目标驱动的代理。但是,这些语言代理很难快速有效地从试验和错误中学习,因为传统的强化学习方法需要大量的训练样本和昂贵的模型微调。论文提出了一个名为"Reflexion"的框架,该框架旨在增强语言代理的能力,不是通过更新权重,而是通过语言反馈。原创 2023-09-18 20:55:20 · 235 阅读 · 0 评论 -
智能的本质--信息的无损压缩
ChatGPT的成功,关键点不在于其庞大的训练数据,而在于其模型算法,对如此庞大的海量数据,依然实现了最高的无损压缩。从人类认知的过程来看,观察收集数据--归纳抽象--泛化运用的过程就是一个信息的无损压缩过程,因此,寻找更好的信息无损压缩算法,也许就是人工智能迈向更高级阶段的最佳方案。原创 2023-08-15 13:38:16 · 348 阅读 · 1 评论 -
谷歌 Embedding Projector 开源,高维数据可视化变得超简单
为了使大家能够更加直观的研究数据,我们开源了我们自己研发的网页版数据可视化工具Embedding Projector,这个可视化工具是TensorFlow的一部分,可以用来对高维数据进行可视化展示与分析,此外还有一个单一版,这个版本不需要安装TensorFlow,便可直接运行,大家可以去 projector.tensorflow.org 下载。通常我们需要训练的数据是不能直接作为机器学习算法的输入的,我们应当将这些数据(例如:词语、声音、视频等数据)表示成一种机器可以理解(处理)的数据形式。原创 2023-07-12 14:38:21 · 592 阅读 · 0 评论 -
LoRA微调 来自huggingface官方 抱抱脸
原则上,LoRA 可以应用于神经网络中权重矩阵的任何子集,以减少可训练参数的数量。然而,为了简单性和进一步的参数效率,在 Transformer 模型中,LoRA 通常仅应用于注意力块。原始权重矩阵保持冻结状态,不会接受任何进一步的调整。LoRA 模型中可训练参数的数量取决于低秩更新矩阵的大小,而低秩更新矩阵的大小主要由原始权重矩阵的秩和形状决定。为了让微调更加高效,LoRA 的做法是通过低秩分解用两个较小的矩阵(称为。,这种技术可以加速大型模型的微调,同时消耗更少的内存。本概念指南简要概述了。原创 2023-07-06 09:14:46 · 1163 阅读 · 0 评论 -
模型输出的概率打分
Histogram binning是一种比较简单的校准方法,根据初始预测结果进行排序后分桶,每个桶内求解一个校准后的结果,落入这个桶内的预测结果,都会被校准成这个值。文中作者提出,上面融合过程中对label的融合对取得校准效果好的预测结果是非常重要的,这和上面提到的label smoothing思路比较接近,让label不再是0或1的超低熵分布,来缓解模型过自信问题。后处理校准方法指的是,先正常训练模型得到初始的预测结果,再对这些预测概率值进行后处理,让校准后的预测概率更符合真实情况。又该如何进行校准呢?原创 2023-07-05 13:53:20 · 577 阅读 · 0 评论 -
CausalML:如何将因果推断与机器学习结合?
马普所和ETH的联合博士,主导师为因果推断领军学者Bernhard Schoelkopf。主攻NLP + 因果推断,已发表NLP/AI论文21篇 (包括ACL, EMNLP, NAACL, AAAI, COLING, AISTATS等)。主要合作者和导师包括Prof Rada Mihalcea (密歇根大学), Prof Mrinmaya Sachan (ETH), Prof Ryan Cotterell (ETH)。原创 2023-06-23 14:50:55 · 686 阅读 · 0 评论