AGI
文章平均质量分 76
小怪兽会微笑
华师大小博士
展开
-
Qwen2-MOE-57B-A14B模型结构解读
该模型总的参数为57B,激活参数为14B,推理速度比32B的快,而且性能更好。原创 2024-06-09 21:44:31 · 3670 阅读 · 0 评论 -
BrainGPT1,一个帮你b站点歌放视频的多模态多轮对话模型
BrainGPT1是一个工具调用多轮对话模型,与GPT-4o不同的是,模型通过调用多个工具模型实现了多模态的多轮对话。因此,模型具备有工具灵活更新,定制化使用的特点。通用问答:默认使用讯飞星火大模型提供的免费API(spark lite),也可以自行接入其他API或本地模型,项目中提供了接入本地ChatGLM3的API的demo。画图能力:默认使用模型。图片问答:默认使用模型。多媒体播放:默认代码查询并返回bilibili的搜索结果。天气查询:默认使用代码查询并返回API的结果。BrainGPT1。原创 2024-06-01 17:41:14 · 1166 阅读 · 0 评论 -
多模态数学推理数据集:MATH-V和MATHVISTA
这里选取了两篇多模态数学推理数据集的代表工作MATH-V和MATHVISTA,均是今年2024年发表的工作。前者是港中大的工作,后者是加利福尼亚大学洛杉矶分校的工作。原创 2024-05-18 12:26:39 · 1404 阅读 · 0 评论 -
垂直领域大模型搭建训练指南,ChemLLM论文介绍
论文是上海人工智能实验室的工作,想训练一个化学垂直领域的对话大模型,然而现有的化学数据往往是结构性的,所以这里论文提出了一套垂直领域数据制作和训练方法,为社区制作专有领域模型提供参考。ChemLLM在化学的三个主要任务上都超过了GPT-3.5,并且超过了GPT-3.5,在其中两个任务上都超过了GPT-4。值得注意的是,ChemLLM对相关的数学和物理任务也显示出了特殊的适应性,尽管它主要接受了以化学为中心的语料库的训练。原化学的表达是SMILES,不适合自然语言处理。原创 2024-02-27 16:46:36 · 2388 阅读 · 3 评论 -
19个大模型常用的评估数据集和训练数据集汇总
19个大模型常用的评估数据集和训练数据集汇总 名称 简介 测试(数据量) 训练(数据量) 地址 CEval 中文选择题测试,包括中学、高中、大学的多个学科 √,13948 × https://huggingface.co/datasets/ceval/ceval-exam GSM8K 小学数学题目,通过最后的数字检测正确与否 √,1320 √,8790 h原创 2024-02-21 20:46:50 · 5412 阅读 · 1 评论 -
大模型:高质量对话数据生成,Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
指令微调的有效性已经被多个工作验证,ChatGPT更是是其中的代表。这个工作旨在提高开源模型的性能上限,提供了一个系统设计的、多样化的、信息丰富的、大规模的教学对话数据集UltraChat。UltraChat包含150万个高质量的多轮对话,并涵盖了广泛的主题和指令。UltraChat的统计分析揭示了其在尺度、平均长度、多样性、一致性等各种关键指标上的优势,巩固了其作为领先的开源数据集的地位。这篇文章认为在训练过程中使用的数据的质量和多样性,对进一步提高聊天语言模型的性能起着至关重要的作用。原创 2023-12-10 22:07:35 · 1696 阅读 · 0 评论 -
大模型的全面回顾,看透大模型 | A Comprehensive Overview of Large Language Models
大模型综述,太全面了,截至2023.11原创 2023-11-14 23:51:37 · 1044 阅读 · 0 评论 -
大模型LLM论文目录
持续更新中ing!!!原创 2023-11-05 11:28:55 · 597 阅读 · 0 评论 -
为什么大模型计算的时候只会利用KVcache来存放KV矩阵,Q矩阵每次不一样?
总之,KV Cache是一种用于提高Transformer架构的推理效率的技术,通过缓存K和V矩阵,从而避免不必要的计算,但由于Q矩阵通常不稳定,因此不会被缓存。KV Cache的思想是,对于K和V矩阵,由于它们相对稳定,可以在不同时间步骤缓存它们,这样,对于相同的输入,您不需要重新计算K和V矩阵,而可以重复使用它们。在Transformer中,自注意力机制的操作包括Q(Query)、K(Key)和V(Value)的计算。相反,Q矩阵是依赖于输入的,因此每次都不同,无法进行缓存,因此Q矩阵通常不被缓存。原创 2023-10-24 22:47:40 · 2388 阅读 · 6 评论 -
多模态大模型NextGPT整体结构图、模型示意图和使用模型时示意图
NextGPT模型图原创 2023-10-15 14:14:16 · 972 阅读 · 0 评论 -
逐行代码学习ChatGLM2-6B大模型SFT微调(通过prompt ptune实现),项目中的ptune/main.py文件
【代码】逐行代码学习ChatGLM2-6B大模型SFT微调,项目中的ptune/main.py文件。原创 2023-10-05 21:13:11 · 1232 阅读 · 0 评论 -
看源码逐行学习ChatGLM2-6B大模型,项目中的modeling_chatglm.py文件
【代码】看注解逐行学习ChatGLM2-6B模型,项目中的modeling_chatglm.py文件。原创 2023-10-04 16:29:00 · 3158 阅读 · 2 评论 -
大模型相关资料、基础技术和排行榜
大模型原创 2023-08-05 19:50:13 · 863 阅读 · 0 评论 -
带记忆的Transformer模块
Transformer缺乏长期记忆的能力。以往的方式是通过训练,利用模型的参数来存储长期记忆,但这种方式需要大量的训练。因此,作者提出将上一次模型中的一部分键和值(这里要看懂,需要了解Transformer结构中的Q,K,V)进行存储,再后面使用时,再利用一个被广泛应用的信息检索的方式–近似K近邻查找KNN来检索这个信息。最后,利用这个检索得到的信息和现有的信息得到结果。相比以往的,作者认为有两个不同。KNN直接找原本文,而不是对原文本进行归纳总结。反向传播的梯度不会更新外部内存。原创 2023-07-15 21:51:06 · 2031 阅读 · 0 评论 -
将数据库与LLMs结合,增强模型的长期记忆能力--ChatDB
LLMs目前存在一个很大问题是缺乏长期记忆。基于指令的记忆:将之前的历史文本和相应文本的 vector embedding 保存下来,需要的时候再利用 vector embedding 间的相似性找到相关的历史信息,然后放到 prompt 中,作为大语言模型的输入,相关的工作有 Auto-GPT 和 Generative Agents 等等。原创 2023-06-27 23:04:33 · 1300 阅读 · 0 评论 -
从大型语言模型LLM走向人工通用智能AGI的改进方向(public)
置信校准指的是模型需要判断事件的真假。当前LLM经常会输出假事实,例如,你让LLM写一首李白的诗,它的输出虽然是诗,但却是它自己瞎编的而不是李白的。你让他给你一篇关于XX领域的参考文献,它的输出像模像样,但真的去谷歌学术上找,发现是找不到对应的文献的。模型约减的目标是使用尽可能小的模型达到尽可能优的性能。未来AGI必然是要普及的,所以缩减模型是一个重点研究方向。未来AGI必然是要普及的,所以模型如何实现个性化是一个重点研究方向。这是大模型一个非常大的缺陷,也是实现AGI必然要解决的问题。原创 2023-06-24 22:40:15 · 754 阅读 · 0 评论 -
大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models
从图灵测试开始讲起,人类一直在探索用机器掌握语言智能的方法。在过去20年,语言模型得到了广泛研究。从统计语言模型到了基于神经网络的语言模型(LSTM等)。最近这些年,通过在大规模语料库(数据集)上对Transformer模型的预训练,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面显示出了很强的能力。原创 2023-04-18 18:05:06 · 8842 阅读 · 0 评论 -
OpenAI对实现强人工智能AGI的规划:《Planing for AGI and beyond》
我们认为,减缓这种技术的发展速度,可以帮助我们更好地适应这些变化,并确保人类的安全。虽然第一个人工智能只是连续智能体中的一个节点,但我们相信,这种技术的进步将会持续很长一段时间,并以我们在过去十年中看到的速度继续发展。一个不稳定的超级人工智能将给世界带来严重的伤害,而一个拥有决定权的专制政权也可能做出同样的事情。我们认为,人类应该决定人类的未来。在推进人工智能的同时,我们也应该进行严格的审查,并向公众征求意见,以应对可能出现的问题。同时,AGI的使用存在巨大风险,可能造成严重的事故,影响社会或是整个人类。原创 2023-04-18 14:34:35 · 1309 阅读 · 1 评论 -
一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models
大型语言模型存在一个问题是并非越大的模型具备越优的性能,所以可能存在的情况是一个更小的模型使用更多的数据训练能得到更好的性能。作者发现一个7B的模型在1T的tokens上性能仍然在提升。因此,LLaMA的工作是使用更小的模型得到更优的性能。另外,在LLaMA中,训练数据全部来自网上公开的数据,作者在论文中介绍了模型及其训练细节。原创 2023-04-11 23:32:11 · 3197 阅读 · 0 评论 -
GPT-4原论文详细解读(GPT-4 Technical Report)
GPT-4是一个多模态的大模型。它的基础结构仍然是Transformer+预测下一个词的目标函数。GPT-4在摘要中的说法是给出了一个预测模型性能的方法,使得只需要0.1%的训练计算资源,就可以预测模型的性能了。不需要训练到最后才得到模型性能,这有助于早期就调整好模型,减少不必要的训练成本。GPT-4这篇工作目的是增强理解生成文本的能力,尤其在复杂且存在细微差异的场景。GPT-4使用了很多人类的考试(例如,律师资格考试)和传统的NLP任务作为测试案例。原创 2023-03-28 10:58:51 · 7499 阅读 · 0 评论 -
2021年一篇强人工智能论文,基于AGI Brain改进的二代版本
有点意思的强人工智能论文原创 2023-01-05 18:04:25 · 541 阅读 · 0 评论 -
人的记忆组成图(原创整理,转载请注明)
来自相关论文及各种资料的人的记忆组成图,具备权威性。原创 2023-01-05 16:49:40 · 423 阅读 · 0 评论 -
ChatGPT深度体验记录,期待GPT-4(测试各领域知识,正常聊天,写代码,写诗歌,模拟人格,机器翻译,语法改错等)
ChatGPT深度体验记录,期待GPT-4(测试各领域知识,正常聊天,写代码,写诗歌,模拟人格,机器翻译,语法改错等)原创 2022-12-09 22:46:28 · 866 阅读 · 0 评论 -
(Nature)面向混合天机芯片架构的人工通用智能(AGI,强人工智能)
Towards artificial general intelligence with hybrid Tianjic chip architecture1.摘要开发AGI(人工通用智能,也叫强人工智能)有两个通用的方法为导向:①计算机科学②神经科学。然而由于它们的公式和编码不一样,这是两个完全不兼容的平台,这也阻碍了AGI的发展。所以一个可以支持流行的基于计算机科学的人工神经网络以及受神经科学启发的模型和算法的通用平台存在是很有必要的。本文提出了一个天机芯片,它集合了两种方法。它的实现采用了多核架构原创 2021-06-25 18:22:15 · 2382 阅读 · 2 评论 -
Huggingface的介绍,使用(CSDN最强Huggingface入门手册)
Huggingface即是网站名也是其公司名,随着transformer浪潮,Huggingface逐步收纳了众多最前沿的模型和数据集等有趣的工作,与transformers库结合,可以快速使用学习这些模型。进入Huggingface网站,如下图所示。Models(模型),包括各种处理CV和NLP等任务的模型,上面模型都是可以免费获得Datasets(数据集),包括很多数据集Spaces(分享空间),包括社区空间下最新的一些有意思的分享,可以理解为huggingface朋友圈。原创 2022-11-29 23:47:28 · 57576 阅读 · 19 评论 -
Artificial General Intelligence: Concept, State of the Art, and Future Prospects
如标题所示,本文主要回顾了强人工智能的定义,前沿技术和未来展望。虽然,这篇论文来自2014年,但依然对我们现在了解认知AGI很有价值。AGI具备能够在各种不同的环境和环境中处理实现各种目标和执行各种任务的能力。AGI具备能够处理创造者(研究者,程序员)意料之外问题的能力AGI能够总结获得的知识,并将该知识应用到其他问题AGI在当前条件下不可能实现现实生活中如果实现了AGI容易偏向于具体的某项任务,GPT3?人的智能大于现有AI的智能,更大于其他动物的智能AGI有望超过人的智能。原创 2022-11-24 15:11:07 · 1183 阅读 · 0 评论