- 博客(159)
- 收藏
- 关注
原创 Agent论文阅读:NormEnforcement with a Soft Touch: Faster Emergence, Happier Agents
(Norm Enforcement with a Soft Touch,即“柔性规范执行”),这是一个。在多智能体系统(multiagent system, MAS)中,智能体之间的交互可通过。可能在促进多智能体系统中的**合作(cooperation)**方面更为有效。智能体对其他智能体的行为作出反应,可能表现为对满意或不满意行为的。对 Nest 进行了实验评估,并考察了三种不同的。,这种方式更接近现实世界中的人类行为模式。,并增强对这些沟通方式的理解。在模拟环境中,每个智能体可以在。
2025-02-09 03:20:26
256
原创 multiAgent论文阅读:Value-Based Rationales Improve Social Experience: A Multiagent Simulation Study
Exanna 智能体在执行行动时,不仅会考虑自身的价值观,还会参考他人的价值观,以此提供行动的理据(rationales)并评估他人提供的理据。因此,Bella 在解释自己不戴口罩的行为时,仅陈述了周围环境安全、无需佩戴口罩的理由,而未涉及自己的健康状况。Bella 为自己的决定提供了以下理据:首先,办公室没有强制佩戴口罩的规定,因为周围环境是安全的。合理地推理价值观是让智能体的决策与利益相关者价值观保持一致的重要能力 [34, 35, 36],这包括提供和理解恰当的理据 [18]。[19] 进行模拟。
2025-02-09 03:07:11
380
原创 Agent&强化学习论文阅读:Operationalising Rawlsian Ethics for Fairness in Norm-Learning Agents
社会规范是社会中普遍存在的行为准则。然而,当智能体在决策时不考虑对他人的影响时,可能会形成导致某些智能体被压制的规范。我们提出了。
2025-02-09 02:07:24
339
原创 失败和成功都是一样有价值的
很多人认为失败就是失败了,就一无是处了。但是像爱迪生发明灯泡失败了99次,最后一次成功了,那能说爱迪生前面的失败都是没用了吗?他自己说他只是成功发现了99种不同的组合的错误。所以我认为不要区分失败和成功,失败没有必要沮丧,成功也没有必要骄傲,所谓胜不骄、败不馁。失败是成功之母,成功是失败的结晶。不应该过度的区分它们,彼此都很有价值。
2025-02-06 05:21:07
107
原创 强化学习DAY2:马尔可夫决策过程(MDP) & Q函数
通过上文,我们已经知道不同状态出现的概率不一样(比如今天是晴天,那明天是晴天,还是雨天、阴天不一定),同一状态下执行不同动作的概率也不一样(比如即便在天气预报预测明天大概率是天晴的情况下,你大概率不会带伞,但依然不排除你可能会防止突然下雨而带伞)如下图所示,这个决策过程可视化了状态之间的转移以及采取的动作。且通过状态转移概率分布,我们可以揭示状态价值函数和动作价值函数之间的联系了。是奖励的集合)的每个可能的值出现的概率只取决于前一个状态。是动作的集合),并且与更早之前的状态和动作完全无关。
2025-02-05 03:45:38
260
原创 申博经验贴
要根据每个教授去写不同的,一定不要泛泛的去写,一定要非常非常的具体,要引起教授的兴趣。每个教授每天都会收到几十封邮件,所以要足够的引起教授的注意(也可以有点标题档)一定一定要海投,投个100多封,一天投个几十封。念念不忘,必有回想。1. 所谓申博,最重要的就是。
2025-02-03 22:01:11
239
原创 NLP&深度学习 DAY6:BERT 模型详解(其实BERT真没干啥)
先说结论:BERT其实真没干啥。BERT其实就是在Transformer的基础上,只用了encoder部分,然后在输入端多了一个Segment Embedding(创新点1),用了两个预训练任务(Masked Language Model (MLM))和 Next Sentence Prediction (NSP)(创新点2),然后就没了,就这两个创新点
2025-02-01 23:59:41
1182
原创 蓝桥杯刷题DAY2:二维前缀和 & 一维前缀和 & 差分数组
蓝桥公园是一个适合夜间散步的好地方,公园可以被视为由 n × m个矩形区域构成。每个区域都有一盏灯,初始亮度为 a[i][j]。小蓝可以选择一个大的矩形区域,并按下开关一次,这将使得该区域内每盏灯的亮度减少1,但每个区域内的灯的亮度最多只能减少至 a[i][j] - c。如果此时亮度已达到 a[i][j] - c,再次按下开关将使得灯的亮度a[i][j]。现在,小蓝将进行t次操作。每次操作他会选择一个矩形区域,该区域的左上角端点为(x₁, y₁),右下角端点为(x₂, y₂)
2025-02-01 05:18:10
714
原创 表面:训练模型 实际:反向传播训练自己
用优质的八股文和 CSDN 文章来反向传播训练自己,用面试和刷题来调整损失函数,用实际的面试场景作为环境,用 HR 和面试官的反馈作为奖励信号,用不断尝试不同的回答策略进行探索和利用,用最终的 offer 作为强化学习的回报,持续优化自己的策略,直至收敛到最佳求职策略。
2025-01-31 22:49:49
93
原创 强化学习 DAY1:什么是 RL、马尔科夫决策、贝尔曼方程
如HMM学习最佳范例中所说,有一类现象是确定性的现象,比如红绿灯系统,红灯之后一定是红黄、接着绿灯、黄灯,最后又红灯,每一个状态之间的变化是确定的。
2025-01-31 21:17:01
716
原创 NLP&深度学习 DAY5:Sequence-to-sequence 模型详解
在NLP任务中,我们通常会遇到不定长的语言序列,比如机器翻译任务中,输入可能是一段不定长的英文文本,输出可能是不定长的中文或者法语序列。当遇到输入和输出都是不定长的序列时,可以使用编码器-解码器(encoder-decoder)模型或者seq2seq模型。其基本思想是编码器用来分析输入序列,解码器用来生成输出序列。
2025-01-30 20:43:31
833
1
原创 NLP&深度学习 DAY4:Word2Vec详解:两种模式(CBOW与Skip-gram)
用稀疏向量表示文本,即所谓的词袋模型在 NLP 有着悠久的历史。正如上文中介绍的,早在 2001年就开始使用密集向量表示词或词嵌入。Mikolov等人在2013年提出的创新技术是通过去除隐藏层,逼近目标,进而使这些单词嵌入的训练更加高效。虽然这些技术变更本质上很简单,但它们与高效的word2vec配合使用,便能使大规模的词嵌入训练成为可能。是最早、最经典的文本表示方法之一(1980左右出现)。它将一段文本看作一个「袋子」:里面盛放了这个文本所含的所有单词,但。
2025-01-29 04:03:29
1120
原创 NLP模型大对比:Transformer >Seq2Seq > LSTM > RNN > n-gram
我们可以用一个 图书馆查询 的类比来解释它们的差异:n-gram 像用 望远镜片段观察 例:处理句子 "虽然价格贵但质量真的好"3-gram只能看到局部组合: 无法关联首尾的 "价格" 和 "质量" 的对比关系BERT 像用 全景扫描仪 通过自注意力机制,让每个词都能关注到句子中所有其他词:# "质量"对"价格"的注意力权重可能高达0.7# "但"对"虽然"的注意力权重可能达0.6 2. 语义关联能力 n-gram 的局
2025-01-28 19:52:31
1315
原创 NLP DAY3:早期的n-gram算法(最浅显易懂)
n-gram算法作为一种基于统计的NLP算法,在文本分析和处理中发挥着重要作用。通过统计文本中连续n个词的序列的频率信息,n-gram为文本生成、语言模型构建、文本分类等任务提供了有力的支持。然而,n-gram算法也存在一些局限性,如数据稀疏性、上下文信息有限以及计算复杂度高等问题。因此,在实际应用中,我们需要根据具体任务和数据特点选择合适的n值和算法参数,以充分发挥n-gram算法的优势并克服其局限性。
2025-01-28 19:28:55
1097
原创 深度学习 DAY3:NLP发展史(全网最全)
NLP发展史NLP发展脉络简要梳理如下:2001 - Neural language models(神经语言模型)2008 - Multi-task learning(多任务学习)2013 - Word embeddings(词嵌入)2013 - Neural networks for NLP(NLP神经网络)2015 - Attention(注意力机制)2015 - Memory-based networks(基于记忆的网络)
2025-01-28 05:17:06
1282
1
原创 大模型Agent方向论文阅读DAY1:《The Rise and Potential of Large Language Model Based Agents: A Survey》
PCA-EVAL 基准目前涵盖三个领域,共计300 个实例,每个领域 100 个实例。在预研究中,我们发现标注过程需要深思熟虑的问题、行动及答案,这使得质量控制具有挑战性。为了保证质量,所有测试用例均经过至少三位作者的验证。我们将在未来继续扩展该基准,以推动对端到端决策的更多关注。
2025-01-28 00:50:47
659
原创 大模型GUI系列论文阅读 DAY4续:《Large Language Model Agent for Fake News Detection》
在当前的数字时代,在线平台上虚假信息的迅速传播对社会福祉、公众信任和民主进程构成了重大挑战,并影响着关键决策和公众舆论。为应对这些挑战,自动化假新闻检测机制的需求日益增长。预训练的大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出卓越的能力,这促使人们探索其在新闻真实性验证方面的潜力。然而,传统的 LLM 使用方式通常是。
2025-01-24 19:10:13
1365
原创 大模型GUI系列论文阅读 DAY4:《PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detecti》
我们的研究强调了仇恨言论研究中建立共识的重要性,并展示了多元观点在提高检测准确性方面的价值。尊重多元视角:PREDICT将不同数据集的标注标准视为“独立视角”,尊重多元化仇恨言论观点,并将其存储为辩论的参考依据。通过辩论达成共识:PREDICT提供了一种基于推理的辩论模拟方法,帮助多代理在不同视角下达成共识。泛化能力:我们验证了PREDICT的泛化能力及其在仇恨言论检测中的卓越性能。
2025-01-24 19:06:04
954
原创 图神经网络系列论文阅读DAY1:《Predicting Tweet Engagement with Graph Neural Networks》
社交网络是全球范围内分享内容的重要在线渠道之一。在这种背景下,预测一篇帖子在互动方面是否会产生影响,对于推动这些媒体的盈利利用至关重要。在现有研究中,许多方法通过利用帖子的直接特征来解决这一问题,这些特征通常与文本内容以及发布该帖子的用户相关。在本文中,我们认为互动的增加还与另一个关键因素相关,即社交媒体用户发布的帖子之间的语义关联。
2025-01-24 01:58:59
843
原创 大模型GUI系列论文阅读 DAY3续5:《WebPilot:AVersatile and Autonomous Multi-Agent System for Web Task Execution 》
基于大语言模型(LLM)的自主代理通常在执行需要动态交互的复杂网页任务时失败,这主要是由于这些环境固有的不确定性和复杂性。现有的基于 LLM 的网页代理通常依赖于针对特定状态和操作的固定、专家设计的策略,缺乏适应新任务所需的灵活性和通用性。相比之下,人类擅长探索未知环境,不断根据新的观察调整策略,并通过探索来解决模糊性。为了模仿人类的适应能力,网页代理需要战略性探索和复杂的决策能力。
2025-01-21 23:54:53
861
原创 大模型GUI系列论文阅读 DAY3续4:《TREE SEARCH FOR LANGUAGE MODEL AGENTS》
自主代理由语言模型(LMs)驱动,已在执行诸如。
2025-01-21 19:14:36
767
原创 大模型GUI系列论文阅读 DAY3续3:《LASER: LLM Agent with State-Space Exploration for Web Navigation》
值得注意的是,在 Amazon.com 上,LASER 甚至优于 WebShop,这可能是由于 Amazon.com 拥有更强大的搜索引擎,而 WebShop 主要依赖于人类演示数据。大型语言模型(LLMs),如 GPT-4(OpenAI,2023),在广泛的自然语言理解(NLU)任务上取得了卓越的性能(Brown 等,2020;Wei 等,2022)。此外,现有方法假设模型在全局动作空间中自由选择任意动作,要么在提示开头定义所有可能的动作,要么期望 LLM 从上下文示例中自动推断出可执行动作。
2025-01-21 18:41:38
699
原创 大模型GUI系列论文阅读 DAY3续2:《WebVoyager : Building an End-to-End Web Agent with Large Multimodal Models》
近年来,大型语言模型(LLMs)的快速发展,如 ChatGPT 和 GPT-4(OpenAI,2023),激发了人们对基于 LLM 的自主代理(AutoGPT,2022)在复杂任务执行方面的极大兴趣(Qin 等, 2023;目前,大型多模态模型(LMMs),尤其是 GPT-4V(ision)(OpenAI,2023)和 Gemini(Team 等, 2023),表现出卓越的能力,能够整合复杂的视觉线索与文本信息。类似于人类浏览网页的方式,我们的代理将网页的视觉信息(截图)作为主要输入来源。
2025-01-21 18:00:41
1063
原创 大模型GUI系列论文阅读 DAY3:《GPT-4V(ision) is a Generalist Web Agent, if Grounded》
因此,SEEACT 探索了最新发布的更强大的多模态模型(LMMs),如 GPT-4V 和 Gemini,并通过全面的在线和离线评估,展示它们作为通用网页代理的潜力。然而,基于 LLM 或 LMM 的代理通常无法直接生成上述三元组 (e,o,v)(e, o, v)(e,o,v),而是生成描述这些变量的文本动作 a~\tilde{a}a~,包括 (e~,o~,v~)(\tilde{e}, \tilde{o}, \tilde{v})(e~,o~,v~)。(Deng 等, 2023)数据集上评估了我们的方法。
2025-01-21 17:47:15
957
原创 大模型GUI系列论文阅读 DAY2续2:《使用指令微调基础模型的多模态网页导航》
Liu 等, 2018)上对所提出的方法进行了测试,每个任务评估 100 个回合,最终结果取自 Gur 等(2022)提供的 56 个任务的平均成功率。如果代理满足给定的指令 ggg(即 r(st,g,at)=1r(s_t, g, a_t) = 1r(st,g,at)=1),则视为成功;(Chung 等, 2022),一个经过指令微调的 T5,而不是像 Gur 等(2022)那样使用原始预训练的 T5。的开发环境,但其性能往往低于在线强化学习的方法(Humphreys 等, 2022;
2025-01-21 00:10:46
1111
原创 大模型GUI系列论文阅读 DAY2续:《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》
此外,在附录 E 中,我们还在 WebSRC(Chen 等, 2021b)基准测试中测试了 WebAgent,该数据集专注于 HTML 结构化文档理解,并与专门的 Transformer 模型(Li 等, 2021b;在 Mind2Web(Deng 等, 2023)这一离线任务规划数据集上,HTML-T5 在 Synapse(Zheng 等, 2023)与 GPT-3.5,以及 MindAct(采用 FLan-T5-XL 和 GPT-4)等方法中取得了**最先进(SoTA)**的性能。
2025-01-20 23:41:56
1229
原创 大模型GUI系列论文阅读 DAY2:《ScreenAgent:一种基于视觉语言模型的计算机控制代理》
因此,为了实现这一目标,首先需要为视觉语言模型(VLM)代理创建一个真实的交互环境,然后引导模型与环境形成一个持续的交互流程,并通过训练提高代理的性能。【Kolb,2014】的启发,使代理能够进行反思性行为,使整个流程更加全面,并与人类的行动和思维过程保持一致。例如,基于 UI 元素元数据可以通过 HTML 或开发者模式轻松获取的基础假设,WebNav【Nogueira 和 Cho, 2016】,Mind2Web【Deng 等】等数据集提供了有限的应用场景......(请提供完整内容以完成翻译)。
2025-01-20 23:25:01
1181
原创 深度学习 DAY2:Transformer
自注意力机制(Self-Attention):这是Transformer的核心概念之一,它使模型能够同时考虑输入序列中的所有位置,而不是像循环神经网络(RNN)或卷积神经网络(CNN)一样逐步处理。多头注意力(Multi-HeadAttention):Transformer中的自注意力机制被扩展为多个注意力头,每个头可以学习不同的注意权重,以更好地捕捉不同类型的关系。自注意力的作用:随着模型处理输入序列的每个单词,自注意力会关注整个输入序列的所有单词,帮助模型对本单词更好地进行编码。
2025-01-19 23:36:45
831
原创 深度学习 DAY1:RNN 神经网络及其变体网络(LSTM、GRU)
RNN网络是一种基础的多层反馈神经网络,该神经网络的节点定向连接成环,其内部状态可以展示动态时序行为。相比于前馈神经网络,该网络内部具有很强的记忆性,它可以利用它内部的记忆来处理任意时序的输入序列,这让它在自然语言处理方面取得了很大的成功。在前面的讲解中,提到了什么是循环网络,以及循环网络的公式构造,RNN网络模型即是循环神经网络的表现。相比于前面描述的循环网络,RNN中加入了其他参数的输入。
2025-01-19 15:10:25
977
原创 大模型GUI系列论文阅读 DAY1:《基于大型语言模型的图形用户界面智能体:综述》(6.6W 字长文)
大型语言模型(LargeLanguageModels,LLMs)的兴起[8][9],特别是那些增强了多模态能力的模型[10],为GUI自动化带来了颠覆性变化,重新定义了智能体与图形用户界面交互的方式。我们将回顾GUI智能体的发展历史,提供构建这些智能体的分步指南,汇总基本和高级技术,评审与框架、数据和模型相关的重要工具和研究,展示典型应用,并概述未来发展方向。通过这些问题,本综述旨在提供对该领域现状的全面概览,为构建LLM驱动的GUI智能体提供指导,识别关键研究空白,并提出未来工作的方向。
2025-01-19 01:08:06
1353
原创 论文DAY2:如何撰写AI会议论文
关键研究主题、高效的解决方案和创新的技术贡献是促成论文新颖性的主要因素。例如,由于它们有可能影响整个领域,许多早期有影响力的深度学习作品都来自基础模型研究。RAFT/NeRF方法因其出色的性能吸引了大量研究人员,并且它们涉及大量超出其核心思想的工程处理。通过强调您作品的新颖性,您将能够辨别哪些方面值得付出努力,哪些是无关紧要的细节。确定您工作的核心优势,并在论文的早期强调它们。您可能有有趣的发现和实验结果,但您不确定如何定义核心主题。能力:您可以做一些以前做不到的事情。性能:您可以做得更好。
2025-01-18 22:01:06
350
原创 论文DAY1:如何进行研究(MIT)
在步骤A之前,你可以看到它是正常的,因为我们输入了X,得到了预期的Y。有了一个好的模型,你可以建立对关键问题的直觉,而这种直觉在研究中是一种巨大的优势。如果你不是那种会爱上某个问题的人,那么你需要明白,努力工作是成功研究的必经之路。你想让你的品牌给人留下许多好印象:这个人总是做出很棒的工作、有好点子、能做出精彩的演讲、还能写出优秀的软件。而强学生开始按照导师的要求去做,发现行不通后,在原方案的“ε球”(也就是一个微小的范围内)内探索其他可能有效的方法,最终找到了可行的解决方案,并报告了这个结果。
2025-01-18 12:39:50
490
原创 大模型 DAY1:整体架构
将输入文本分成一个个词元,保证各个词元拥有相对完整和独立的语义,以供后续任务(比如学习embedding或者作为高级模型的输入)使用。
2025-01-18 01:03:05
166
原创 大模型o1系列论文阅读 DAY1:STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning
生成逐步的“思维链”(chain-of-thought)推理过程可以显著提高语言模型在复杂推理任务(如数学或常识性问答)中的表现。然而,目前让语言模型生成推理过程通常需要两种方式之一:要么构建大规模的推理数据集,要么通过仅使用少量示例推理(few-shot inference)来生成推理,但会牺牲模型的准确性。我们提出了一种技术,可以通过利用少量带有推理过程的示例和一个大规模未标注推理过程的数据集,迭代性地提升模型处理更复杂推理任务的能力。
2025-01-17 03:19:54
318
原创 NLP DAY2: 文本数据处理(一部分)
事情无论巨细,往往存在一个准备阶段。比如做饭炒菜,需要择菜、洗菜、切菜、热锅等准备工作;出远门需要整理好身份证、手机、钱包等随身物品。类似地,在处理文本的任务中,也存在预处理这么一个重要阶段,包括诸如统一数据格式、去噪、词形还原、分词之类的基本操作,以及语义分析、关键词提取、对于数据不平衡的处理等更进一步的精细处理。
2025-01-17 00:47:40
982
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人