大模型日报
2024-07-27
大模型资讯
-
摘要: IBM研究院和RPI的团队发现了上下文学习为何能提升基础模型预测能力的原因,这一发现为机器学习增加了透明度。
-
摘要: Meta公司在三个月前发布了Llama 3 AI模型,包含8B和70B两个版本。近日,Meta决定将其最大的Llama AI模型公开,让更多人能够使用和研究这一先进的人工智能技术。
-
摘要: Google DeepMind结合大规模语言模型和自学习AI的新技术,旨在解决现有AI的一些缺陷。这一进展或将提升聊天机器人的性能和用户体验。
-
摘要: 谷歌DeepMind的新研究表明,使用带有特殊JumpReLU激活的稀疏自编码器(SAEs)可以帮助解释大语言模型(LLMs)。
-
摘要: 阿里巴巴和腾讯迅速将Meta的Llama 3.1 AI模型集成到他们的云服务中。Llama 3.1为OpenAI的GPT-4提供了一个替代方案,显示出在AI领域的竞争力。
-
摘要: 研究人员警告,盲目学习其他模型生成的数据会导致大语言模型(LLM)出现退化现象,随着时间的推移,模型会逐渐忘记真实信息。这种退化过程将对模型的长期性能产生负面影响。
-
摘要: Imposter.AI研究对抗攻击策略,旨在揭示高级大语言模型的潜在漏洞。大语言模型在生成类人文本方面表现出色,应用广泛,包括客户服务自动化等领域。
-
摘要: Yandex研究人员与IST Austria、NeuralMagic和KAUST合作,开发并开源了两种大型语言模型压缩方法,使AI部署成本降低多达8倍。
-
摘要: 微软宣布推出Phi-3微调、新的生成型AI模型及其他Azure AI更新,旨在帮助组织定制和扩展AI应用。了解如何利用Azure AI工具链快速创建具有更大选择性和灵活性的定制AI解决方案。
-
摘要: Meta宣布其最新的开源AI模型Llama 3.1具有‘最先进的能力’,被称为全球最大和最强的AI模型。
大模型产品
大模型论文
-
摘要: 研究通过自训练和直接偏好优化(DPO)提升小规模语言模型在数学推理任务中的表现,提供更高效和可扩展的解决方案。
-
摘要: 本文提出RISE方法,通过递归内省提升语言模型在数学推理任务中的自我改进能力,并在Llama2等模型上验证了其有效性。
-
摘要: 研究发现,尽管大规模语言模型在对抗训练下表现更好,但在缺乏明确防御措施时,模型规模对鲁棒性提升效果有限。
-
摘要: 本文通过马氏链性质推导出更紧的泛化界限,适用于如LLaMA2-70B等高质量文本生成的大型语言模型。
-
摘要: Dallah利用LLaMA-2模型,支持阿拉伯语多模态交互,精通六种方言,表现优异,推动多模态阿拉伯语模型发展。
-
摘要: 提出弹性缓存方法,通过重要性驱动的缓存合并策略,提升多模态指令模型的推理效率和语言生成性能。
-
摘要: 研究了微调大语言模型用于股票回报预测,发现不同模型在不同投资组合中表现各异,Mistral表现最为稳健。
-
摘要: 提出PEFT-U基准数据集,探讨高效个性化大语言模型,以满足用户在多样化任务中的特定需求。
-
摘要: C2P框架赋予大语言模型因果推理能力,在多种基准数据集上显著提升推理准确率,适用于医疗、经济等领域。
-
摘要: ComPeer是一个生成型对话代理,利用大语言模型提供主动、适应性的同伴支持,增强用户长期参与度。
大模型开源项目
-
摘要: Dify提供直观界面,结合AI工作流、RAG管道、代理功能等,快速从原型到生产,使用TypeScript编写。
-
摘要: Meta Llama 3是Meta官方发布的AI项目,使用Python语言编写,提供最新的AI技术和工具。
-
摘要: 使用Go语言开发,快速上手Llama 3.1、Mistral、Gemma 2等大型语言模型的工具项目。
本文由 mdnice 多平台发布