
开源大模型
文章平均质量分 86
主要包含目前最新的开源大模型,比较SOTA性能。
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
Llama 4 被曝刷榜作弊,差评如潮...
没想到,Meta Llama 4 发布 36 小时后差评如潮:代码测试小球穿墙失效;第三方榜单成绩垫底;匿名员工爆料内部数据泄露隐患;高层离职与恐慌模式频现;合成数据争议未消;写作文本重复僵化;网友调侃“DeepSeek-R1出世两月,Meta却像熬了几辈子”...原创 2025-04-10 10:45:15 · 807 阅读 · 0 评论 -
DeepSeek开源周Day4三连发,梁文峰亲自上阵,API 错峰优惠
DeepSeek 使用两个 micro-batch 来重叠计算和全对全(all-to-all)通信,同时确保注意力机制的计算负载在两个 micro-batch 间保持平衡 —— 这意味着同一个提示可以在它们之间拆分。,该配置文件采用 EP32 和 TP1(与 DeepSeek V3/R1 的实际在线部署一致),提示长度设置为 4K,每 GPU 的批大小为 16K 个 token。需要注意的是,专家负载的具体预测方法不在此代码库的讨论范围内,一种常用的方法是使用历史统计数据的移动平均值。原创 2025-03-04 10:35:38 · 861 阅读 · 0 评论 -
【最新开源】美研究机构发布全球最大生物学AI模型Evo 2!阶跃星辰首次开源Step系列多模态大模型!
2月19日,美国 Arc Institute 与英伟达合作,联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究人员,共同推出了——。该模型以超过 128,000 个基因组的数据为基础,训练了 9.3 万亿个核苷酸,使其规模与最强大的生成性 AI 语言模型相媲美。是一种先进的 DNA 语言模型,专注于长上下文的建模和设计。它能够在单核苷酸分辨率下对 DNA 序列进行建模,支持长达 100 万碱基对的上下文长度。原创 2025-02-25 15:48:56 · 777 阅读 · 0 评论 -
阿里国际开源Ovis2多模态新王炸!DeepSeek开源首个代码库FlashMLA!
系列包括 1B、2B、4B、8B、16B 和 34B 六种不同参数规模的模型版本,以满足多样化需求。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力,使其在数学推理和视频理解任务中表现尤为突出。Hopper 是英伟达的GPU(图形处理芯片)架构,例如H100和H800,发布于2022年,主要用于AI计算。引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。冻结 LLM,训练视觉模块,学习视觉特征到嵌入的转化。原创 2025-02-25 15:44:10 · 457 阅读 · 0 评论 -
马斯克发布「地表最强」Grok-3,屠榜多个排行榜,暴击DeepSeek-R1
参考:https://techcrunch.com/2025/02/17/elon-musks-ai-company-xai-releases-its-latest-flagship-ai-grok-3/在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。在多项基准测试中,在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)上,原创 2025-02-20 19:49:49 · 1040 阅读 · 0 评论 -
UC 伯克利等开源OpenThinker-32B,性能直逼 DeepSeek-R1-32B!
最近一段时间,以 DeepSeek-R1 为代表的大型推理模型可谓是「当红炸子鸡」!原创 2025-02-17 18:11:56 · 839 阅读 · 0 评论 -
AI最新资讯:DeepSeek 估值飙升至 1500 亿美元?国行iPhone最终选择阿里千问?
目前,它打开的是视频推送,但未来也可能会提供图片生成的相关内容。除了图像生成功能的改进,OpenAI 还对 Sora 的视频推送进行了改版,将其分为「Best」和「Top」两个类别,将帮助用户更好地筛选和查找内容。此外,业内人士也指出,ChatGPT 尚未推出基于 GPT-4o 的多模态图像生成功能,因此此次 Sora 项目的推出将是一个值得关注的新进展。近日,OpenAI 被爆出一个消息:在其内部测试的项目 Sora 中,除了已经推出的视频生成功能外,图像生成功能也在紧锣密鼓地研发中。原创 2025-02-14 15:20:23 · 798 阅读 · 0 评论 -
DeepSeek 开源新一代文生图模型 Janus-Pro!
1月28日,DeepSeek 开源了一个文生图模型,旨在实现高质量的文本-图像生成与多模态理解。是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立路径,同时利用单一的统一 Transformer 架构进行处理,解决了以往方法的局限性。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。原创 2025-02-14 15:11:26 · 406 阅读 · 0 评论 -
谷歌反击DeepSeek R1发布Gemini 2.0全家桶,几大云巨头官宣接入DeepSeek
2月2日,云轴科技 ZStack 宣布 AI Infra 平台 ZStack 智塔全面支持企业私有化部署 DeepSeek-V3/R1/ Janus Pro三种模型,并可基于海光、昇腾、英伟达、英特尔等多种国内外CPU/GPU适配,将充分发挥DeepSeek开源模型和低成本高性能特点,助力企业级AI应用进一步落地。2 月 4 日,华为计算宣布,潞晨科技携手昇腾,联合发布基于昇腾算力的 DeepSeek R1 系列推理 API,及云镜像服务。原创 2025-02-14 15:02:30 · 625 阅读 · 0 评论 -
最新开源: Hugging Face最小AI视觉语言模型登场!百川智能开源Baichuan-M1医疗增强大模型!
基于 GenAI 技术构建,而依赖于逻辑链条(Chain-of-Thought,CoT)来逐步推导出解决方案,这是一种用技术换时间和算力资源的方案,使思考模型可以用 10 分钟做完一套高考数学卷,分数超过 120 分,在逻辑推理能力上,进一步靠近人类专家。两款模型均采用 Hugging Face 的先进多模态技术,能够执行图像描述、短视频分析、文档理解等任务,尤其适合内存少于 1GB 的设备如笔记本电脑,为开发者提供更广泛的应用场景。让生成的「白模」(没上色的模型)效果“堪比设计师手工建模”。原创 2025-02-14 11:20:06 · 1005 阅读 · 0 评论 -
百川智能发布「全场景深度思考模型」,开源Baichuan-M1医疗增强大模型!
在 MMMU-val、MathVista 等权威评测中的成绩也超越了 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型,进一步证明了其跨领域的卓越性能。在 AIME、Math 等数学基准测试以及LiveCodeBench代码任务上的表现均优于 o1-preview 等模型,展现了其强大的语言理解和处理能力。,作为 Baichuan-M1-preview 的小尺寸版本,Baichuan-M1-14B 在保持高性能的同时,更加灵活易用。1 月 24 日,百川智能发布了。原创 2025-02-14 11:14:35 · 439 阅读 · 0 评论 -
DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型!
下如图所示,做 2024 年的 AIME 数学奥赛试卷,DeepSeek-R1-Zero 的平均 pass@1 分数从最初的 15.6% 显著提升到了 71.0%,达到了与 OpenAI-o1-0912 相当的水平。结果显示,通过RL,即便没有监督微调数据,DeepSeek-R1-Zero 依然获得了强大的推理能力。在多数投票机制中,DeepSeek-R1-Zero 在 AIME 中的成功率进一步提升到了 86.7%,甚至超过了 OpenAI-o1-0912 的表现。原创 2025-02-14 11:02:23 · 465 阅读 · 0 评论 -
最新开源:VITA-1.5:实时视觉与语音交互,1.5秒互动延迟
的独特之处在于其能够进行高效的语音对话,无需单独的自动语音识别(ASR)和文本到语音(TTS)模块,这对于加速端到端多模态系统的响应时间具有颠覆性意义。,包括视觉对齐、视觉理解和视觉有监督微调,旨在弥合视觉和语言之间的差距,并使模型能够理解图像内容和回答视觉问题。,是一个开源的集成了视觉、语言和语音的多模态大语言模型,旨在实现类似 GPT-4o 水平的实时视觉和语音交互。,包括编解码器训练和 NAR + AR 解码器训练,旨在使模型能够生成语音输出,实现端到端的语音交互。输出端则具有一个端到端的。原创 2025-01-16 09:30:00 · 602 阅读 · 0 评论 -
最新开源:Dispider 实现视频LLMs的主动实时交互!又一个媲美 o1 的“开源推理模型”来了!
NovaSky 团队利用阿里巴巴的 QwQ-32B-Preview 模型,生成了Sky-T1-32B-Preview 的初始训练数据,随后“整理”数据混合,并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易用的格式,最终形成了可用的训练集。Sana 不仅在速度上取得了突破,在图像质量方面也具有竞争力,即使是复杂的场景,如文字渲染和物体细节,Sana 的表现也令人满意。不仅在常规视频 QA 任务中保持了强大的性能,而且在流式场景响应方面也明显超越了以前的在线模型,从而验证了架构的有效性。原创 2025-01-16 09:20:40 · 969 阅读 · 0 评论 -
最新端侧AI :阿联酋TII发布Falcon3!AI Safeguard联合CMU开发Ivy-VL!微软发布超强小模型Phi-4
超越了顶尖的端侧 SOTA 模型,包括 Qwen2-VL-2B,InternVL2-2B,InternVL2.5-2B,SmolVLM-Instruct, Aquila-VL-2B 以及 PaliGemma 3B 等模型。与传统的大型语言模型(LLM)相比,SLM 模型因其较少的参数和更简洁的设计,具备高效性和低成本优势,尤其适合在客户服务、医疗保健、物联网等领域中应用。,拥有仅 3B 的参数,与7B以几十B的多模态模型相比,具有更小的硬件占用。,延续之前的小参数模式只有 140 亿。原创 2025-01-06 10:36:12 · 813 阅读 · 0 评论 -
最新大模型:香港多所高校推出多模态大模型Lyra!IBM发布Granite3.1模型!
这是一组轻量级、先进的开源基础模型,支持多语言、代码生成、推理和工具使用,能够在有限的计算资源上运行。提供12 种不同语言的多语言支持:英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文。的极小尺寸和快速生成能力使其非常适合在移动设备上应用,可以用于各种需要高分辨率图像生成的场景,如图像编辑、视频创建等。在各种视觉-语言、视觉-语音和语音-语言基准测试中取得了 SOTA 的性能,同时还使用了更少的计算资源和训练数据。原创 2025-01-06 10:31:17 · 969 阅读 · 0 评论 -
智源发布 FlagEval 全球100+大模型综合评测结果!国产大模型拿下多个冠军!
今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。原创 2025-01-06 10:26:46 · 976 阅读 · 0 评论 -
最新开源:国产大模型DeepSeek-V3来了!阿里云开源首个多模态推理模型QVQ!腾讯推出新型翻译模型 DRT-o1
DeepSeek-V3 的成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。此外,在剩下的三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview 表现出色,有效缩小了与领先的最先进的 OpenAI o1 模型之间的差距,与 Claude3.5 Sonnet等推理模型相当。DeepSeek-V3 在多种标准基准测试中表现优异,尤其在数学和代码任务上表现突出。原创 2025-01-06 10:19:27 · 2873 阅读 · 0 评论 -
端侧AI | 小模型 | SLM(11月-12月)
在基准测试方面,和其他 SLM 模型(Gemma-2B, Qwen1.5-1.8B, StableLM-2-1.6B 和 OpenELM1.1B)相比,Fox-1 在 ARC Challenge (25-shot), HellaSwag (10-shot), TruthfulQA(0-shot),MMLU (5-shot),Winogrande (5-shot),GSM8k (5-shot)) 模型因其较少的参数和更简洁的设计,具备高效性和低成本优势,尤其适合在客户服务、医疗保健、物联网等领域中应用。原创 2025-01-06 10:15:05 · 1094 阅读 · 0 评论 -
最新开源:全球首个半导体专用大模型SemiKong 70B发布!全球首个中文安全领域事实性基准评测集!
涵盖了包括中国违法违规,伦理道德,偏见歧视,辱骂仇恨,身心健康,谣言错误,网络安全理论知识等方面的安全知识。SemiKong 旨在通过将领域特定的知识融入模型中,解决半导体行业面临的独特挑战,如半导体器件和工艺的物理和化学问题,充当该领域的“数字专家”,从而显著加快新芯片的上市速度。SemiKong 系列模型是双语语言模型,训练于 3T 多语言语料库,展示了在语言理解、常识推理、阅读理解等方面的强大能力。中文:使用中文并且聚焦于中国相关的安全知识,特别是中国法律框架、道德标准和文化环境相关的安全问题。原创 2025-01-06 10:07:54 · 833 阅读 · 0 评论 -
【2024年终总结】2024年AI大模型总结报告 | Artificial Analysis
2024年是大模型发展非常迅速的一年,我们见证了太多AI技术变革带来的惊艳!这一年里,各家大模型的能力提升层出不穷。LLM方面,OpenAI发布了更强的o系列模型;文生图开源模型也出现了 SD 的替代者 Flux;视频生成模型更是百花齐放,很多大模型公司都推出了类 Sora 的视频生成模型。近日,回顾了2024年人工智能的重大事件,梳理出了一份关于人工智能领域的年终总结。Artificial Analysis 是一家领先的独立AI基准测试和分析平台,上面分析的模型不仅包括,还有如文生图、文生视频等等。原创 2025-01-06 09:48:38 · 1264 阅读 · 0 评论 -
最新开源:Meta 开源 Llama 3.3:更小规模、更高性能!谷歌新一代视觉语言模型PaliGemma 2!
对硬件资源的要求大幅降低。(Vision Tower):基于 Siglip Vision Transformer,它通过将图像分割为 14×14 的小块(称为图像 patch),并为每块生成特定的嵌入(embedding),最终提取图像的整体语义。的表现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro,展现出了强大的竞争力。技术,通过整合分组查询注意力(GQA)机制,Llama 3.3 提升了推理时的可扩展性和性能,进一步优化了模型的应用能力。原创 2024-12-10 16:32:17 · 7931 阅读 · 0 评论 -
NeurIPS 2024 最佳论文揭晓!北大、字节跳动「VAR模型」获最佳论文!
在符合直觉的同时,这样的自回归算法带来了很好的效果:VAR 显著提升了自回归模型的速度和生成质量,在多方面使得自回归模型首次超越扩散模型。与传统的按像素或token顺序生成图像的方法不同,VAR 模型通过从低到高分辨的多尺度 token 图进行自回归生成,每一尺度的token图都依赖于前一尺度的结果。此外,在对 80B 个通用 token 进行持续预训练时,RHO-1 在 15 个不同任务上实现了 6.8% 的平均提升,数据效率和语言模型预训练的性能都得到了提升。原创 2024-12-10 09:33:47 · 2207 阅读 · 0 评论 -
国内“推理模型”卷疯了!类 o1 推理模型,谁更强?
在多模态推理基准测试中超越了其基础模型 8.9%,并在性能上超越了一众开闭源模型,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。但 OpenAI 并没有公开 o1 模型的具体技术细节,从各高校、研究机构的 o1 模型复现研究来看,o1 的主要技术路线为「搜索+强化学习」,即对思维链进行搜索,然后用强化学习去学习搜索的过程。最近,国内有很多大模型公司开始发布类似 o1 的模型,虽然不排除有炒作的嫌疑,但说明大模型的竞争是非常激烈的!原创 2024-12-03 10:24:54 · 1589 阅读 · 0 评论 -
最新开源:阿里开源QwQ-32B-Preview推理大模型!月之暗面Kimi开源大模型推理架构 Mooncake!阿里开源图像生成模型Qwen2VL-Flux!
是由 Moonshot AI 提出的长文高效推理架构,它采用了 KVCache 为中心的分离架构,将预填充和解码集群分开,并利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源实现分离的 KVCache。在全面考察数学解题能力的 MATH-500 评测中,QwQ 斩获 90.6% 的高分,一举超越OpenAI o1-preview 和 o1-mini,体现了在各类数学主题上的全面理解;不仅能够根据用户输入的图像生成多幅相似图像,还支持文本引导的图像混合和图像引导的图像融合。原创 2024-12-02 15:32:20 · 1807 阅读 · 0 评论 -
最新开源:开源科研神器 OpenScholar 来了!能检索4500万篇论文,科研效率提升10倍!
本质上,OpenScholar 是一个进行过检索增强(retrieval-augmented)的语言模型,外接一个包含4500万篇论文的数据库,性能可以优于专有系统,甚至媲美人类专家。为了方便自动化评估,研究团队还推出了全新的大规模基准 ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。总体而言, OpenScholar 实现了SOTA性能,大大优于 GPT-4o 和相应的标准 RAG 版本,以及 PaperQA2 等专用的文献综述系统。原创 2024-11-28 16:36:39 · 1101 阅读 · 0 评论 -
TÜLU 3:首个发布后训练配方的开源模型,性能超越Llama3.1
TÜLU 3 建立在 Llama 3.1 基础模型之上,其结果超过了 Llama 3.1、Qwen 2.5、Mistral 的 instruct 版本,甚至超过了 GPT-4o-mini 和 Claude 3.5-Haiku 等闭源模型。最近,来自艾伦人工智能研究所和华盛顿大学的研究团队推出了 TÜLU 3,一个完全开放的 SOTA 后训练模型系列,以及它的数据、代码和训练方法,作为现代后训练技术的综合指南。正是在这个阶段,模型从一个"无所不知"却缺乏判断力的网络,转变为具有特定功能导向的实用工具。原创 2024-11-28 16:30:31 · 599 阅读 · 0 评论 -
最新开源:「天工大模型4.0」o1版来了!国内首款中文逻辑推理能力o1模型
图:在求解组合(从 10 人中选出 3 人组成一队,共多少种选择)问题时,Skywork o1 Preview 在全链路思考过后,答案正确。图:在比较 13.8 与 13.11 孰大孰小时,Skywork o1 Lite 给出了完整的思维链路,找出解题的关键在于小数位大小。与当前市场上基于OpenAI o1模型的复现工作不同,Skywork o1 不仅在输出结果上展现了深度的。,而且在标准测试集中的表现远超常规模型,实现了推理性能的显著提升。技术,能模仿人类的思维过程,显著提升逻辑推理和复杂任务解决能力。原创 2024-11-28 16:21:52 · 727 阅读 · 0 评论 -
Mistral AI 再发力!最强开源多模态模型 Pixtral Large!对标ChatGPT全面升级le Chat!
Mistral AI 在 9 月份甩出了自家的首款多模态大模型 Pixtral 12B,如今,Pixtral 12B 技术报告全公开。从论文的测试结果来看,Pixtral 12B 明显优于其他类似大小的开源模型(比如 Llama-3.2 11B 和 Qwen-2-VL 7B),甚至在一些评测中,表现比 Meta 家的多模态老大哥 Llama-3.2 90B 还要好。原创 2024-11-20 13:01:35 · 1538 阅读 · 0 评论 -
【大模型前沿】FinVision:一种用于股市预测的多智能体框架!港中大 SEALONG,用贝叶斯技巧提升长上下文推理能力!
通过与基准模型的比较,FinVision 在所有评估的股票中表现出显著优势,特别是与传统的买入并持有策略和基于强化学习的模型相比。由芝加哥伊利诺伊大学的 Sorouralsadat Fatemi 和 Yuheng Hu 提出的 FinVision 框架,展示了一种多模态、多智能体系统在股票市场预测中的应用,具有显著的创新性和实用性。每个模块都承担特定的功能,协同工作以提供全面的交易建议。此外,他们还确定了基于 LLM 的智能体的六个关键特征,并在此基础上总结了当前的研究进展,分析了其局限性。原创 2024-11-20 09:35:00 · 1044 阅读 · 0 评论 -
最新开源:边缘设备优化的多模态模型Omnivision!通义灵码团队开源Lingma SWE-GPT!DeepSeek开源统一多模态框架JanusFlow!
图:Table 1 展示了 Lingma SWE-GPT(7B 和 72B)与各种最先进模型在 SWE-bench Verified 和 SWE-bench Lite 上的综合表现。基于 Qwen 系列基础模型,Lingma SWE-GPT 通过软件工程开发过程数据的额外训练,增强了其解决复杂软件工程任务的能力。基准结果表明,JanusFlow 在 MMBench、SeedBench 和 GQA 上的得分分别为74.9、70.5和60.3,表现优于许多现有的统一模型。原创 2024-11-16 15:29:08 · 1499 阅读 · 0 评论 -
最新开源:腾讯再开源两款最新大模型!SAM2Long来了,无需训练大幅提升SAM 2!
公开测评结果显示,Hunyuan-Large 在CMMLU、MMLU、C-Eval、MATH等多学科综合评测集上表现优异,在中英文自然语言处理、代码生成、数学运算等9大能力维度中全面领先,超过 Llama3.1、Mixtral 等一流开源模型。然而,尽管 SAM 2 已经具备出色的性能,但仍有其局限性,例如对不同场景的适应能力不足。11月5日,在腾讯混元大模型媒体沟通会上,腾讯混元宣布最新的MoE模型 “混元Large” 以及混元3D生成大模型 “Hunyuan3D-1.0” 正式开源。原创 2024-11-14 14:38:50 · 1017 阅读 · 0 评论 -
2024 人工智能全景报告《State of AI Report 2024》出炉!
10月10日,我们迎来了2024年的《人工智能全景报告》(《State of AI Report 2024》),该报告已连续七年发布,成为AI行业流行的风向标。报告链接:https://docs.google.com/presentation/d/1GmZmoWOa2O92BPrncRcTKa15xvQGhq7g4I4hJSNlC0M/edit?原创 2024-11-13 17:54:04 · 3767 阅读 · 0 评论 -
最新开源:最强表格AI问世,浙大开源TableGPT2!
项目提供了不同 tokenizer 的推理代码和预训练模型,能够实现高达 2048 倍的总压缩率,同时保持较高的图像质量,并比现有的最先进方法快 12 倍。这些开源模型的性能大大超过了 GPT-4-Turbo(17.6%)和 GPT-4o(13.9%),也超过了之前在开源 LLM 上训练的 SOTA Web Agent(AutoWebGLM,18.2%)。最近,英伟达发布了新的视觉压缩工具——Cosmos Tokenizer,它能帮助我们在保持图像和视频高质量效果的同时实现显著的压缩率。原创 2024-11-13 17:32:12 · 1176 阅读 · 0 评论 -
最新开源:开源软件Gradio上新5大功能!字节跳动发布 GR-2 机器人大模型!全新三维生成模型3DTopia-XL!
近年来,3D资产生成技术经历了诸多突破,从游戏开发到虚拟现实、影视制作,3D内容需求的快速增长正催生着更加高效且智能化的生成工具。在预训练阶段,GR-2“观看”了多达 3800 万个来自各类公开数据集的互联网视频以及 500 亿个 tokens,涵盖了家庭、户外、办公室等多种日常场景,让 GR-2 具备在后续策略学习中跨越广泛机器人任务和环境的泛化能力。此外,GR-2 在新颖、之前未见的场景中表现出色的泛化能力,包括新的背景、环境、物体和任务。和许多大模型一样,GR-2 的训练包括预训练和微调两个过程。原创 2024-10-12 14:35:11 · 1337 阅读 · 0 评论 -
最新开源:智源BGE登顶Hugging Face月度榜!北大&快手开源Pyramid Flow!Rhymes AI发布首款开源多模态AI模型Aria!
BGE 不仅性能综合卓越,多次大幅刷新 BEIR、MTEB、C-MTEB 等领域内主流评测榜单,而且始终秉持彻底的开源开放的精神,“模型、代码、数据” 向社区完全公开。经过训练,Pixtral-12B 既能理解自然图像,也能理解文档,在各种多模态基准测试中取得了领先的性能,超越了许多大模型。在训练方面,Rhymes AI 共分为四个阶段,先用文本数据进行预训练,再引入多模态数据,接着是长序列的训练,最后进行微调。在短短一年时间内,总下载量已超数亿次,是目前下载量最多的国产AI系列模型。原创 2024-10-12 14:24:43 · 1054 阅读 · 0 评论 -
谷歌上新!最强开源模型Gemma 2,27B媲美LLaMA3 70B,挑战3140亿Grok-1
在总体评分上,Gemma 2 取到了开源模型最高分,而且用 27B 的参数「以小搏大」,超过了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量级的知名模型,而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。基于Transformer解码器架构,与 Gemma 1 不同之处在于,Gemma 2 每隔一层交替使用局部滑动窗口注意力和全局注意力机制,引入了分组查询注意力(GQA)以提高推理速度,相比 Gemma 1 也使用了更深的网络结构。原创 2024-07-09 11:30:56 · 1702 阅读 · 0 评论 -
国产开源多模态大模型来了!浦语灵笔 InternLM-XComposer-2.5,超过GPT-4V
(InternLM-XComposer-2.5,简称IXC-2.5)是基于大语言模型研发的突破性的图文多模态大模型,仅使用7B LLM 后端就达到了 GPT-4V 级别的能力。使用24K交错的图像-文本上下文进行训练,通过ROPE外推可以无缝扩展到 96K 长的上下文。这种长上下文能力使在需要广泛输入和输出上下文的任务中表现出色。原创 2024-07-09 10:00:51 · 1123 阅读 · 0 评论 -
智谱AI开源代码生成大模型 CodeGeeX4-ALL-9B
智谱AI 旗下的代码生成大模型 CodeGeeX 正式发布第四代开源版本:CodeGeeX4-ALL-9B,其是集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等能力于一体的代码大模型,是目前百亿(10B)参数以下性能最强、最全能的代码大模型。模型的核心功能 Demo 和使用教程已经在 GitHub 上开源,模型权重可在 HuggingFace、ModelScope、WiseModel 等大模型平台下载。原创 2024-07-09 09:16:03 · 1598 阅读 · 0 评论 -
AI大神 Sebastian Raschka 发布新书《从零开始构建大语言模型》
书的地址:https://livebook.manning.com/book/build-a-large-language-model-from-scratch/这本书用清晰的文字、图表和示例解释每个阶段,从最初的设计和创建,到采用通用语料库进行预训练,一直到针对特定任务进行微调。配套的代码:https://github.com/rasbt/LLMs-from-scratch。,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。这本书的配套代码也已经在 GitHub 上开源了。原创 2024-06-25 10:12:11 · 3122 阅读 · 0 评论