开源大模型
文章平均质量分 89
主要包含目前最新的开源大模型,比较SOTA性能。
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
谷歌上新!最强开源模型Gemma 2,27B媲美LLaMA3 70B,挑战3140亿Grok-1
在总体评分上,Gemma 2 取到了开源模型最高分,而且用 27B 的参数「以小搏大」,超过了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量级的知名模型,而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。基于Transformer解码器架构,与 Gemma 1 不同之处在于,Gemma 2 每隔一层交替使用局部滑动窗口注意力和全局注意力机制,引入了分组查询注意力(GQA)以提高推理速度,相比 Gemma 1 也使用了更深的网络结构。原创 2024-07-09 11:30:56 · 214 阅读 · 0 评论 -
国产开源多模态大模型来了!浦语灵笔 InternLM-XComposer-2.5,超过GPT-4V
(InternLM-XComposer-2.5,简称IXC-2.5)是基于大语言模型研发的突破性的图文多模态大模型,仅使用7B LLM 后端就达到了 GPT-4V 级别的能力。使用24K交错的图像-文本上下文进行训练,通过ROPE外推可以无缝扩展到 96K 长的上下文。这种长上下文能力使在需要广泛输入和输出上下文的任务中表现出色。原创 2024-07-09 10:00:51 · 84 阅读 · 0 评论 -
智谱AI开源代码生成大模型 CodeGeeX4-ALL-9B
智谱AI 旗下的代码生成大模型 CodeGeeX 正式发布第四代开源版本:CodeGeeX4-ALL-9B,其是集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等能力于一体的代码大模型,是目前百亿(10B)参数以下性能最强、最全能的代码大模型。模型的核心功能 Demo 和使用教程已经在 GitHub 上开源,模型权重可在 HuggingFace、ModelScope、WiseModel 等大模型平台下载。原创 2024-07-09 09:16:03 · 517 阅读 · 0 评论 -
AI大神 Sebastian Raschka 发布新书《从零开始构建大语言模型》
书的地址:https://livebook.manning.com/book/build-a-large-language-model-from-scratch/这本书用清晰的文字、图表和示例解释每个阶段,从最初的设计和创建,到采用通用语料库进行预训练,一直到针对特定任务进行微调。配套的代码:https://github.com/rasbt/LLMs-from-scratch。,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。这本书的配套代码也已经在 GitHub 上开源了。原创 2024-06-25 10:12:11 · 195 阅读 · 0 评论 -
最新开源:英伟达Nemotron-4 340B,哔哩哔哩Index-1.9B,谷歌RecurrentGemma-9B...
当地时间6月14日,英伟达开源 Nemotron-4 340B 系列模型,包括三个模型:基础模型Nemotron-4-340B-Base,指令模型Nemotron-4-340B-Instruct,以及奖励模型Nemotron-4-340B-Reward,具有3400亿参数,在NVIDIA开放模型许可协议下开放访问,允许分发、修改和使用这些模型及其输出。bilibili开源轻量级模型Index-1.9B,具有19亿参数,在2.8T中英文为主的语料上预训练,该系列模型在多个评测基准上与同级别模型相媲美。原创 2024-06-18 15:20:49 · 985 阅读 · 0 评论 -
多语言大模型 Aya-23 开源!覆盖23种语言,性能刷新SOTA
近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了解决上述问题,最近,加拿大AI独角兽公司 Cohere 开源了两种参数规模的多语言指令微调模型Aya-23,包括 8B 和 35B 的版本,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。论文链接:https://arxiv.org/pdf/2405.15032。原创 2024-06-04 14:10:02 · 892 阅读 · 0 评论 -
AI一周大事记 | 主动式AI应用崛起,国内大模型厂商继续发力,微软AI全家桶狂飙...
5 月 22 日,历时4个月打磨,百川智能发布最新一代基座大模型 Baichuan 4,并推出成立之后的首款AI助手“百小应”。相较于前代Baichuan 3,迭代后的Baichuan 4在各项能力上均有极大提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%,在国内权威大模型评测机构SuperCLUE的评测中,模型能力国内第一。原创 2024-06-04 13:42:27 · 717 阅读 · 0 评论 -
小模型时代来了?苹果开源OpenELM,公开代码、权重、数据集、训练全过程
4月24日,苹果开源了大语言模型(Open-source Efficient Language Models,即“开源高效语言模型”)。这与微软刚开源的Phi-3-mini类似,是一款专门针对手机等移动设备的模型。系列模型包含共4个不同参数版本,共包括,提供生成文本、代码、翻译、总结摘要等功能。基于较小的参数量,这些模型可在端侧设备上独立运行,而不必连接云端服务器。原创 2024-04-26 14:43:35 · 932 阅读 · 0 评论 -
微软发布「轻量级AI模型」Phi-3-mini,性能逼近GPT-3.5,可手机端运行
Phi-3-medium-14B 是新增的最大参数版本的Phi模型,参数140亿,架构与最小的Phi-3-mini-3.8B 相同,但是训练的epoch更多,训练的数据量和 Phi-3-small-7B 一样,4.9万亿tokens。当地时间 4 月 23 日,微软发布了 Phi-3 系列模型,最小参数38亿,最大规模拓展到了140亿,包含3个版本,分别是Phi-3-mini-3.8B、Phi-3-small-7B 和 Phi-3-medium-14B。该模型的体积很小,可以部署在手机上。原创 2024-04-26 14:32:47 · 1163 阅读 · 0 评论 -
一周SOTA:Meta 发布 Llama 3;Mistral AI 开源 Mixtral 8x22B;阿里开源代码模型CodeQwen1.5;面壁 MiniCPM 2.0 发布
Meta 正式开源Llama 3,发布8B、70B参数大小的基础模型和指令微调模型版本,是同等规模中的最佳模型。此外,Llama 3 最大的模型规模超过400B,虽然该模型正在训练中,但 Meta 表示未来将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口和更强大的性能,并将推出新的模型尺寸版本和公开 Llama 3 的研究论文。相比前两代,Llama 3 在训练成本、训练时间、模型架构等多个方面有了很大的升级。上下文长度:Llama系列的上下文长度一直在增长。原创 2024-04-25 09:23:09 · 1308 阅读 · 0 评论 -
最强开源大模型Llama 3发布!最大版本是4000亿参数规模!性能直逼GPT-4!
当地时间4月18日,Meta 官宣发布其最新开源大模型 Llama 3。目前,Llama 3 已经开放了 80亿 和 700亿 两个小参数版本,上下文窗口为8K。未来还有4000亿参数版本,支持多模态、超长上下文、多国语言!原创 2024-04-19 18:11:31 · 1406 阅读 · 0 评论 -
一周最新开源:Stability、Mistral再开源,3个MoE大模型DBRX、Jamba、Qwen1.5-MoE-A2.7B接连开源
上周,Stability AI 开源 Stable Code Instruct-3B,Mistral AI 宣布 Mistral 7B v0.2 Base Model,Databricks 开源了其 MoE 模型 DBRX,通义千问团队发布 MoE 模型:Qwen1.5-MoE-A2.7B,AI21 Labs 宣布开源 MoE 大模型 Jamba。原创 2024-04-17 10:26:29 · 672 阅读 · 0 评论 -
细数AI程序员 Devin、SWE-agent、通义灵码、Devika...,“码农”要失业了吗?
3月12日,美国AI初创公司Cognition AI在X平台发布一条视频,宣布了首位完全自主的AI程序员 Devin 的诞生。第一位接近人类的 AI 程序员,究竟强在哪里?不同于我们在前两年看到的 GitHub Copilot 等 AI 编程助手,Devin 并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。Devin 不仅能自主学习新技术,自己改Bug,甚至还能训练和微调自己的AI模型,表现已然远超GPT-4等“顶流选手”。原创 2024-04-17 10:14:28 · 772 阅读 · 0 评论 -
2024最火热的大模型技术方向:MoE,国产MoE大模型大爆发!
根据官方公布的数据, XVERSE-MoE-A4.2B 模型的评测结果与阿里的Qwen1.5-MoE-A2.7B接近,超过了DeepSeek-16B-MoE模型,与Mistral-7B、LLaMA2 34B等在同一个水平。而与另外两个模型不同的是,XVERSE-MoE-A4.2B 固定了2个专家,每次推理的时候必然激活,而剩余的6个专家则是根据推理输入进行路由选择,这样做是为了保证模型在基础通用能力上获得对应的领域性能。Mistral-7B×8-MoE 是一个稀疏的混合专家网络,是一个纯解码器模型。原创 2024-04-17 09:59:26 · 1459 阅读 · 0 评论 -
正值AI大模型繁忙期:Mistral再开源8×22B大模型,OpenAI发布「视觉版」GPT-4 Turbo,谷歌重磅发布Gemini 1.5 Pro,Meta确认开源大模型LLaMA 3
根据科技外媒The Information4月8日发布的报道,作为对标GPT-4的大模型,LLaMA 3的大规模版本参数量可能超过1400亿,而最大的LLaMA 2版本的参数量为700亿。同一天,OpenAI发布了 GPT-4 Turbo with Vision,这是最新的 GPT-4 Turbo 模型,具有视觉功能,可处理用户上传的照片、绘图和其他图像。4月10日,Mixtral-8×7B-MoE模型升级新版本,Mistral AI 开源了全新的Mixtral-8×22B-MoE大模型。原创 2024-04-17 09:44:09 · 905 阅读 · 0 评论 -
盘点2023年Q3的开源模型,这些值得推荐!
文章目录盘点2023年Q3「值得推荐」的开源模型!基座模型LLaMA 2Baichuan 2ChatGLM2-6BQwen-14BInternLM-20BTigerbot-13BTigerbot-70B多模态模型LLaVA 1.5VisualGLM-6BVisCPMNexT-GPTMiniGPT-5Qwen-VLAgent开发AgentsAgentVerseAutoAgentsMetaGPTAutoGenAutoGPTAgentGPT微调框架OpenLLMLLaMA-Efficient-TuningXTun原创 2023-10-19 09:34:38 · 1496 阅读 · 0 评论 -
2023人工智能全景报告《State of AI Report》出炉!AI未来一年的10大预测:GPT-4仍是全球最强,GenAI 大爆发,...
然而,Meta 高举开源AI的旗帜,先后发布开源大模型 Llama、Llama2,选择向公众开放模型权重等技术细节,掀起了一场开放竞争的大语言模型竞赛,并形成了开源与专有大模型之间的抗衡。OpenAI 公布了的 GPT-4 技术报告,可参考的内容非常有限,几乎没有发布什么有价值的信息,Google的 PaLM 2 技术报告亦是如此,而 Anthropic 直接选择不发布 Claude 和 Claude 2 的技术报告。虽然专有闭源模型最受关注,但人们对开源且允许商业用途的 LLM 的兴趣在增加。原创 2023-10-19 13:01:04 · 828 阅读 · 0 评论 -
UC伯克利LLM排行榜(Chatbot Arena Leaderboard)再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一
这表明开源模型仍有很大的改进空间。通过在聊天机器人竞技场运行2个月收集的一部分用户数据的分析,团队确定了用户提示的8个主要类别: 写作、角色扮演、提取、推理、数学、编码、知识一(STEM)和知识二(人文社科)。图注:用户与LLaMA-13B和Vicuna-13B之间的多轮对话,开始是MMLU基准中的问题和后续指令,然后将GPT-4与上下文一起呈现,比较谁的答案更好。另外,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,在一个扩展的用户共享的对话集上训练,且权重已公开。原创 2023-07-06 12:09:51 · 2033 阅读 · 0 评论 -
斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一
根据 faldore 的介绍,他使用了 WizardLM 团队提供的原始训练脚本和未经过滤的数据集 ,在四块 A100 80GB 的显卡上训练了 36 小时和 60 小时,分别得到了 UNCENSORED WizardLM-7B 和 UNCENSORED WizardLM-13B 模型。之前,HuggingFace发布了个开源LLM的排行榜,主要是跟踪、排名和评估最新的大语言模型和聊天机器人,让所有人方便的观察到开源社区的进展和评估这些模型。但准确说,对于敏感问题的输出,用户具有所有权和控制权。原创 2023-07-06 11:22:25 · 1361 阅读 · 0 评论 -
AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊
目前支持长上下文的开源大模型已经有支持65K的 MPT-7B-storyteller 和32K的ChatGLM2-6B,闭源大模型比如 Claude-100K and GPT-4-32K,但LMSYS Org的研究人员还是选择通过测试来印证它们是「李鬼」还是「李逵」。6月29日,来自LMSYS Org的研究人员发布了两个支持16k token上下文长度的开源大模型LongChat-7B和LongChat-13B,并测试了几个支持长上下文能力的几个大模型的实际表现。原创 2023-07-06 11:03:07 · 3911 阅读 · 0 评论 -
清华ChatGLM2-6B开源!第二代性能大幅提升,推理提速42%,最高支持32K上下文
推理性能提升了42%:基于 Multi-Query Attention 技术,ChatGLM2-6B有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。在主要评估LLM模型中文能力的 C-Eval 榜单中,截至6月25日 ChatGLM2 模型以 71.1 的分数位居榜首,超越GPT-4,而最新版本 ChatGLM2-6B 模型以 51.7 的分数位居第7,是榜单上排名最高的开源模型。原创 2023-07-06 10:53:49 · 1015 阅读 · 0 评论