分析完900个开源AI大模型工具,一些发现让我意外,零基础入门到精通,收藏这篇就够了

回顾了近900个最受欢迎的开源AI LLM工具(keyword:llm/gpt/generative ai,star:500+),从中分析得到了一些意外、有益的结论:

截止8月3日,累计952个最受欢迎的开源AI工具,托管在llama-polic,更新/6小时

  • AI技术栈分为三层:基础设施、模型开发和应用开发。

  • 2023年,特别是Stable Diffusion和ChatGPT引入后,新工具的数量激增。

  • 2023年是AI工程的一年,出现了多种工具和框架。

  • 模型开发在ChatGPT之前占主导地位,2023年对推理优化、评估和参数高效微调的兴趣增加。

  • 基础设施层相对稳定,尽管引入了向量数据库等新类别。

  • 开源AI开发者遵循长尾分布,少数账户控制着大部分仓库

  • 中国的开源生态系统正在增长,许多流行的AI仓库针对中国受众。

  • 许多仓库迅速获得关注然后迅速沉寂,称之为“炒作曲线(hype curve)”。

数据

使用关键词gpt、llm和generative ai在GitHub上进行了搜索。如果AI现在感觉如此压倒性,那是因为它确实是。仅gpt就有118K的结果。

将搜索限制在至少有500颗星的仓库。llm有590个结果,gpt有531个,generative ai有38个。也偶尔检查GitHub趋势和社交媒体上的新仓库。

经过许多小时,找到了896个仓库。其中,51个是教程(例如dair-ai/Prompt-Engineering-Guide)和聚合列表(例如f/awesome-chatgpt-prompts)。最终分析是使用845个软件仓库进行的。

这是一个痛苦但有回报的过程。更好地了解了人们正在做什么,开源社区的协作程度等等。

The New AI Stack

AI技术栈由三层组成:基础设施、模型开发和应用开发

1. Infrastructure

在技术栈的最底层是基础设施,包括服务工具(vllm, NVIDIA的Triton)、计算管理(skypilot)、向量搜索和数据库(faiss, milvus, qdrant, lancedb)等。

2.Model development

这一层提供开发模型的工具,包括建模和训练框架(transformers, pytorch, DeepSpeed)、推理优化(ggml, openai/triton)、数据集工程、评估等。任何涉及改变模型权重的事情都发生在这一层,包括微调。

3. Application development

有了现成的模型,任何人都可以在它们的基础上开发应用程序。这是在过去两年中动作最多的一层,并且仍在快速发展。这一层也被称为AI工程。

应用开发涉及提示工程、RAG、AI接口等。

在这三个层次之外,还有另外两个类别:

  • Model repos,由公司和研究人员创建,用于分享与他们的模型相关的代码。这一类别的仓库示例包括CompVis/stable-diffusion、openai/whisper和facebookresearch/llama。

  • 基于现有模型构建的应用程序。最受欢迎的应用程序类型是编码、工作流程自动化、信息聚合等。

AI stack over time

绘制了每个月每个类别仓库数量的累积图。在Stable Diffusion和ChatGPT引入后的2023年,新工具的数量爆炸性增长。曲线在2023年9月似乎趋于平缓,可能有以下三个原因。

  • 只在分析中包括至少有500颗星的仓库,而仓库获得这么多星需要时间。

  • 大多数容易摘取的果实已经被摘取。剩下的需要更多的努力去构建,因此能够构建它们的人更少。

  • 人们意识到在生成性AI领域竞争很难,所以兴奋情绪已经平息。从传闻来看,在2023年初,所有AI对话都围绕着生成性AI,但最近的对话更加务实。一些甚至提到了scikit-learn。

在2023年,应用和应用开发层的增长最高。基础设施层也有一些增长,但远远没有达到其他层的增长水平。

应用

毫不奇怪,最受欢迎的应用程序类型是编码、机器人(例如角色扮演、WhatsApp机器人、Slack机器人)和信息聚合(例如“让我们将其连接到我们的Slack并要求它每天总结消息”)。

AI工程

2023年是AI工程的一年。由于它们中的许多非常相似,因此很难对工具进行分类。目前将它们归入以下类别:提示工程、AI界面、代理和AI工程(AIE)框架。

提示工程远远超出了调整提示的范畴,涵盖了诸如约束抽样(结构化输出)、长期记忆管理、提示测试和评估等。

AI界面为最终用户提供了一个与您的AI应用程序交互的界面。这是最让人兴奋的类别。一些正在获得欢迎的界面包括:

  • 网络和桌面应用程序。

  • 允许用户在浏览时快速查询AI模型的浏览器扩展。

  • 通过Slack、Discord、微信和WhatsApp等聊天应用程序的机器人。

  • 允许开发人员将AI应用程序嵌入到VSCode、Shopify和Microsoft Office等应用程序的插件。插件方法对于可以使用工具完成复杂任务的AI应用程序(代理)来说很常见。

AIE框架是一个涵盖所有帮助您开发AI应用程序的平台的总称。它们中的许多都是围绕RAG构建的,但它们也提供了其他工具,如监控、评估等。

Agent是一个奇怪的类别,因为许多Agent工具只是复杂的提示工程,可能具有约束生成(例如,模型只能输出预定的操作)和插件集成(例如,让智能体使用工具)。

模型开发

在ChatGPT之前,AI技术栈由模型开发主导。模型开发在2023年的最大增长来自于**对推理优化、评估和参数高效微调(归入建模和训练)**的日益增长的兴趣。

推理优化一直很重要,但如今基础模型的规模使其对延迟和成本至关重要。优化的核心方法保持不变(量化、低秩分解、剪枝、蒸馏),但许多新技术特别是针对变换器架构和新一代硬件已经开发出来。例如,在2020年,16位量化被认为是最先进的。今天,我们看到了2位量化甚至低于2位的量化。

同样,评估一直很重要,但随着许多人将模型视为黑箱,评估变得更加重要。有许多新的评估基准和评估方法,如比较评估(见Chatbot Arena)和AI作为评委。

基础设施

基础设施是关于管理数据、计算和服务于监控和其他平台工作的工具。尽管生成性AI带来了所有变化,开源AI基础设施层基本上保持不变。这也可能是因为基础设施产品通常不是开源的。

这一层的最新类别是向量数据库,有像Qdrant、Pinecone和LanceDB这样的公司。然而,许多人认为这根本就不应该成为一个类别。向量搜索已经存在很长时间了。与其为向量搜索构建新数据库,现有的数据库公司如DataStax和Redis正在将向量搜索引入数据已经存在的地方。

开源AI开发者

开源软件,像许多事物一样,遵循长尾分布。少数账户控制着大部分仓库。

一个人的十亿美元公司?

845个仓库托管在594个独特的GitHub账户上。有20个账户至少有4个仓库。这些前20个账户托管了195个仓库,或者说是列表上所有仓库的23%。这195个仓库总共获得了1,650,000颗星。

在GitHub上,一个账户可以是组织或个人。前20个账户中有19个是组织。其中,3个属于Google:google-research、google、tensorflow

在这些前20个账户中,唯一的个人账户是lucidrains。在拥有最多星的前20个账户中(仅计算生成AI仓库),有4个是个人账户:

  • lucidrains(Phil Wang):能够以惊人的速度实现最先进的模型。

  • ggerganov(Georgi Gerganov):一个来自物理背景的优化之神。

  • Illyasviel(Lyumin Zhang):Foocus和ControlNet的创造者,目前是斯坦福大学的博士生。

  • xtekky:一个全栈开发者,创建了gpt4free。

毫不奇怪,在技术栈中越往下走,个人构建就越难。基础设施层的软件最不可能由个人账户启动和托管,而超过一半的应用是由个人托管的。

由个人启动的应用平均获得了比由组织启动的应用更多的星。一些人推测我们将看到许多非常有价值的一个人的公司(见Sam Altman的采访和Reddit讨论)。

100万次提交

超过20,000名开发者为这845个仓库做出了贡献。他们总共做出了近100万次贡献!

其中,最活跃的50名开发者做出了超过100,000次提交,平均每人超过2,000次提交。在这里查看前50名最活跃的开源开发者的完整列表。

中国开源生态系统的增长

有许多、许多针对中国受众的流行AI仓库在GitHub上,它们的描述是用中文写的。有为中国或中英开发的模型仓库,如Qwen、ChatGLM3、Chinese-LLaMA。

虽然在美国,许多研究实验室已经放弃了语言模型的RNN架构,但基于RNN的模型家族RWKV仍然很受欢迎。

还有AI工程工具提供了将AI模型集成到中国流行的产品中的方法,如微信、QQ、钉钉等。许多流行的提示工程工具也有中文镜像。

在GitHub上前20个账户中,有6个起源于中国

  • THUDM:清华大学的知识工程组(KEG)和数据挖掘。

  • OpenGVLab:上海AI实验室的通用视觉团队。

  • OpenBMB:由ModelBest和清华大学的NLP组共同创立的大型模型基础开放实验室。

  • InternLM:来自上海AI实验室。

  • OpenMMLab:来自香港中文大学。

  • QwenLM:阿里巴巴的AI实验室,发布了Qwen模型家族。

快速生活,快速死亡

去年观察到的一个模式是,许多仓库迅速获得了大量关注,然后迅速沉寂下来,称之为“炒作曲线(hype curve)”。在这些至少有500个GitHub星的845个仓库中,有158个仓库(18.8%)在过去24小时内没有获得任何新星,37个仓库(4.5%)在过去一周内没有获得任何新星。

以下是两个这样的仓库增长轨迹的例子,与两个更持久的软件增长曲线相比较。尽管这里展示的两个例子已经不再使用,但它们在向社区展示可能性方面很有价值,作者能够如此迅速地推出这些项目也很棒。

项目推荐

社区正在开发如此多的酷炫想法。以下是一些不错的项目推荐:

  • 批量推理优化:FlexGen, llama.cpp

  • 使用Medusa、LookaheadDecoding等技术的更快解码器

  • 模型合并:mergekit

  • 约束抽样:outlines, guidance, SGLang

  • 看似小众但解决单一问题非常出色的工具,例如einops和safetensors。

900 AI tools  https://huyenchip.com/llama-police``https://huyenchip.com/2024/03/14/ai-oss.html

如何系统学习AI大模型?(附全套学习资源)

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份**全面的AI大模型学习资源**,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

四、AI大模型商业化落地方案

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值