数据学习（Datalearner）-CSDN博客

原创哪个大模型的编程能力更好？DataLearner编程大模型排行榜帮你选择！开源进展神速，前五已经有4个开源模型！

为了方便大家对编程大模型有更清晰的比较，DataLearner也发布了一个编程大模型排行榜页面，方便大家对编程大模型领域的进展有清晰的认识。

2023-08-29 17:07:38 5433

原创 Artificial Analysis报告显示中国AI产业技术突破，已经与美国形成全球双极主导

这份权威报告依托严谨的技术指标评测体系，首次通过数据量化确认了中国AI技术水平的跨越式发展，尤其在顶尖大模型的研发领域，中国已实质性跻身全球第一梯队。上图对比了中国大模型与美国最强模型的表现，其中美国最强的推理模型为OpenAI的o3，而在大语言模型方面，则以Gemini 2.0 Flash（或可能为Gemini 2.0 Pro）领先。在应用层面，深化场景落地，最大化技术价值。同时，在中美领先模型的对比中，美国拥有11个（其中OpenAI贡献了5个），中国则有7个，两者在数量上基本持平；

2025-02-09 21:39:04 1589

原创什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？

原文较为详细，本文为精简版本，详情参考原文即可。近期，DeepSeek R1的出现使推理大模型受到关注。与GPT-4o等普通大模型相比，推理大模型有何不同？它适用于哪些任务？又是如何训练的？

2025-02-09 10:12:31 795

原创可以在手机端运行的大模型标杆：微软发布第三代Phi-3系列模型，评测结果超过同等参数规模水平，包含三个版本，最小38亿，最高140亿参数

版本，架构与最小的Phi-3-mini-3.8B相同，但是训练的epoch更多，训练的数据量和Phi-3-small一样，4.9万亿tokens。今天，微软发布了第三代Phi系列大模型，最高参数规模也到了140亿，其中最小的模型参数38亿，评测结果接近GPT-3.5的水平。微软发布了第三代Phi模型，这一代的模型最小参数38亿，最大规模拓展到了140亿，包含3个版本，分别是Phi-mini-3.8B、Phi-small-7B和Phi-medium-14B。在这其中，微软的Phi系列模型是最具有竞争力的。

2024-04-27 19:41:15 3203

原创阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型：MMLU评测接近Llama-3-70B，略超Mixtral-8×22B！

最近2个月，国外开源的DBRX、Mixtral-8×22B-MoE是最新的超过1000亿参数规模的模型。而国内此前开源领域最大的参数模型是720亿参数规模的Qwen1.5-72B规模和650亿参数的深圳元象科技开源的XVERSE-65B。根据官方公布的评测结果，Qwen1.5-110B模型的评测结果略略超过Llama-3-70B和Mixtral-8×22B。阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型：MMLU评测接近Llama-3-70B，略超Mixtral-8×22B！

2024-04-27 19:37:44 1685

原创开源王者！全球最强的开源大模型Llama3发布！15万亿数据集训练，最高4000亿参数，数学评测超过GPT-4，全球第二！

官方透露的信息非常多，Llama3系列是目前为止最强的开源大语言模型，未来还有4000亿参数版本，支持多模态、超长上下文、多国语言！Llama3系列模型是MetaAI开源的第三代大语言模型，本次发布的包含2个不同参数规模的版本，一个是80亿参数的LLama3-8B，另一个是700亿参数规模的Llama3-70B。这个分数仅次于Claude3-Opus的95分，超过GPT-4，全球第二，是目前开源大模型中得分最高的一个。其中的代码数据集高4倍！需要注意的是，这里的4000亿参数版本正在训练中，还没完成。

2024-04-21 21:24:24 1863

原创 Llama3相比较前两代的模型（Llama1和Llama2）有哪些升级？几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况

如下图所示，第一代的小一点的模型训练数据是1万亿tokens，而较大的650亿规模的模型训练数据是1.4万亿tokens。这是MetaAI开源的第三代大语言模型，也是当前最强的开源模型。在Llama1和Llama2中，MetaAI的词汇表都是32K大小，这可能与前两代模型的训练数据差距不大有关。Llama3-70B模型目前已经是Chatbot Arena大模型匿名评分最高的开源模型了。未来，如果4000亿参数规模的Llama3-400B也开源的话，那无疑是给闭源模型企业一颗巨大的炸弹。

2024-04-21 21:22:06 3290

原创重磅！阿里巴巴开源自家首个MoE技术大模型：Qwen1.5-MoE-A2.7B，性能约等于70亿参数规模的大模型Mistral-7B

阿里巴巴宣布开源其首个基于MoE技术的大规模语言模型——Qwen1.5-MoE-A2.7B，这一举措标志着开源社区在大模型领域的又一次重大进展。

2024-03-29 12:12:18 1421 1

原创马斯克旗下xAI发布Grok-1.5，相比较开源的Grok-1，各项性能大幅提升，接近GPT-4！

继Grok-1开源之后，xAI宣布了Grok-1.5的内测消息，并预告即将全面商用，这一消息无疑为AI技术爱好者和开发者社区带来了新的兴奋点。

2024-03-29 12:07:25 1291

原创重磅！谷歌宣布发布Gemini 1.5 Pro，距离Gemini发布仅仅一个半月！最高支持1000万上下文长度，GSM8K评测全球第一

本次发布的Gemini 1.5是Pro版本的更新，官方宣传Gemini 1.5 Pro的能力已经接近此前的Gemini Ultra 1.0的水平。按照此前发布的信息看，Gemini Pro的参数量应该是比Gemini Ultra低一个数量级。谷歌官方在介绍Gemini 1.5 Pro的时候非常强调它的超长上下文和多模态能力，它可以直接从402页的阿波罗登月记录中推断对话、事件和其中的细节，展现了非常强大的推理能力和超长上下文的理解能力。

2024-02-16 16:22:48 1237

原创 OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定

上图展示了更高层次的Sora方法的原理，通过首先将视频压缩到低维的潜在空间，然后将这些表示分解为时空patches，OpenAI Sora实现了视频到patches的转换。Sora是OpenAI开发的一款先进AI模型，它能根据文本指令创造出高质量、逼真的视频，不仅拓宽了创作的边界，还融合了安全措施和社区的反馈。OpenAI宣布发布全新的Diffusion大模型Sora，这是一个可以生成最长60秒视频的视频生成大模型，最大的特点是可以生成非常逼真的电影画面版的视频。实例2：淘金热期间加利福尼亚州的历史录像。

2024-02-16 16:14:49 1109

原创第二代Qwen大模型发布，阿里巴巴一口气开源了30个不同参数规模的模型

但是现在出来的Qwen-1.5与Qwen2-Beta在评测结果上是差不多的，所以这里的Qwen1.5应该就是Qwen2-Beta改名的结果。而这6个不同参数规模版本的模型，每一个都开源了基础预训练版本、聊天优化版本、Int4量化、Int8量化以及AWQ版本，所以相当于每一个参数规模的模型都有5个版本，因此一共发布了30个版本的模型！这次阿里发布的模型应该有30个，数量非常多包含6个不同参数规模的版本，分别是5亿、18亿、40亿、70亿、140亿和720亿。

2024-02-06 08:52:18 3904

原创阿里巴巴的第二代通义千问可能即将发布：Qwen2相关信息已经提交HuggingFace官方的transformers库

通义千问是阿里巴巴开源的一系列大语言模型。而昨天，Qwen团队的开发人员向HuggingFace的transformers库上提交了一段代码，包含了Qwen2的相关信息，这意味着Qwen2模型即将到来。从提交的代码信息看，Qwen2系列模型包含了很多不同的尺寸，每一个参数规模的模型都包含基座模型和聊天对齐的chat版本。而目前md文件透露的信息看，70亿参数规模的Qwen2-7B-beta和Qwen-7B-Chat-beta是最早发布的第二代Qwen模型。

2024-01-16 22:29:43 1898

原创智谱AI发布国产最强大模型GLM4，理解评测与数学能力仅次于Gemini Ultra和GPT-4，编程能力超过Gemini-pro，还有对标GPTs商店的GLMs

这是在智谱AI开发者大会上推出的新一代基座大语言模型，GLM4相比较此前最大的特点是三个变化：性能全面提升、上下文长度更长、支持更强的多模态能力。GLM4（GLM4）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | 数据学习 (DataLearner)

2024-01-16 22:28:02 8072

原创 2023年度巨献，一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜

2023年度巨献，一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜 | 数据学习者官方网站(Datalearner)2022年11月底，ChatGPT横空出世，全球都被这样一个“好像”有智能的产品吸引力。随后，工业界、科研机构开始疯狂投入大模型。在2023年，这个被称为大模型元年的年份，有很多令人瞩目的AI产品与模型发布。

2023-12-29 14:23:01 1355

原创 6种大模型的使用方式总结，使用领域数据集持续做无监督预训练可能是一个好选择

本文原文来自DataLearnerAI官方网站：6种大模型的使用方式总结，使用领域数据集持续做无监督预训练可能是一个好选择 | 数据学习者官方网站(Datalearner)Sebastian Raschka是LightningAI的首席科学家，也是前威斯康星大学麦迪逊分校的统计学助理教授。他在大模型领域有非常深的见解，也贡献了许多有价值的内容。在最新的一期推文中，他总结了6种大模型的使用方法，引起了广泛的讨论。

2023-12-29 14:21:52 3022

原创不同参数规模大语言模型在不同微调方法下所需要的显存总结

这个模型在微调的时候需要的显存大小和450亿参数规模的模型相当。推理现存与微调显存实际上不会有什么优势（根据实际测试，Mixtral 8×7B MoE推理最少也要90多G的显存）。不过，这也会降低一点精度。大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务，识别特定的指令等。但是大模型的微调需要的显存较高，而且比较难以估计。与推理不同，微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。

2023-12-24 14:30:39 3186

原创准备迎接超级人工智能系统，OpenAI宣布RLHF即将终结！超级对齐技术将接任RLHF，保证超级人工智能系统遵循人类的意志

但是，对于一个几百万行的代码系统，可能需要AI系统根据前面1000行代码的人类评估过程来推广，去自行评估这个几百万行代码的系统是否准确遵从了人类的意图且符合安全要求。同时，OpenAI也宣布投资1000万美元，在全球招募团队做这方面的研究，通过的团队可以获得10万-200万美元的资助，进行超级对齐的研究。为此，OpenAI提出这种超级对齐技术，希望可以用较弱的模型来对齐较强的模型。今天，OpenAI在其官网上发布了一个全新的研究成果：一个利用较弱的模型来引导对齐更强模型的能力的技术，称为由弱到强的泛化。

2023-12-16 10:47:48 1087

原创 MistralAI开源全球首个（可能）基于MoE（Mixture of Experts）技术的大模型：预训练下载链接全球直发，但实测表现似乎一般！

MistralAI是一家法国的大模型初创企业，其2023年9月份发布的Mistral-7B模型声称是70亿参数规模模型中最强大的模型，并且由于其商用友好的开源协议，吸引了很多的关注。| 数据学习者官方网站(Datalearner)MistralAI目前没有公布Mistral-7B-MoE这个模型的其它细节，而根据公布的磁力下载链接中的文件夹名称，这个模型目前也被称为。的大模型这是由8个70亿参数规模专家网络组成的混合模型（Mixture of Experts，MoE，混合专家网络）。

2023-12-09 21:16:45 1925

原创如何提高大模型在超长上下文的表现？Claude实验表明加一句prompt立即提升效果~

如果模型在训练过程中接收到避免错误和不准确声明的强烈信号，它可能会在实际应用中表现出更多的谨慎。Claude 2.1版本的模型上下文长度最高拓展到200K，也是目前商用领域上下文长度支持最长的模型之一。但是，在模型发布不久之后，有人测试发现。而今天，Anthropic官方发布了一个博客解释，这个不是因为Claude模型能力不行，而是测试的方式不太好。可以看到，当文档长度超过20K之后，表现就非常差，与Anthropic官方的说法差别很大。”即可大幅提升模型回答效果，改进模型不愿意回答不相关内容的水平。

2023-12-08 23:30:04 1217

原创来自OpenAI的官方解释：ChatGPT中的GPTs与Assistants API的区别是什么？有什么差异？

简单来说，前者是界面话的操作，后者则是针对开发者提供的接口。OpenAI发布的产品中，有2个产品可以用来将GPT当作一个类似AI Agent工具使用，同时支持接入自定义的接口和数据。那就是GPTs和Assistant API，前者可以在界面直接操作，后者则是一个API，两者功能接近，为了让大家更加清晰理解二者区别，OpenAI官方最近发布了二者的解释。来自OpenAI的官方解释：ChatGPT中的GPTs与Assistants API的区别是什么？它可以非常简单，也可以做的非常复杂。

2023-12-08 08:57:43 3217

原创 ChatGPT可能即将发布新版本，带有debug功能：支持下载原始对话、可视化对话分支等

上图是Debug功能的隐藏开关，并不是所有用户都能看到，而是代码隐藏在网页端复现结果。在对话界面的右上角有一个开关按钮，点击之后会唤起右侧的side bar功能，显示是Debug功能栏。AIPRM的工作人员最近发现ChatGPT的客户端隐藏内置了一个新的debug特性，可以提高ChatGPT对话的问题调试功能。还有一个关于ChatGPT Team版本计划的信息，尽管很早就有截图，但是似乎延迟发布了。不过由于ChatGPT Plus用户已经有128K的GPT了，但是GPT-4的消息额度变少了，那么这个。

2023-12-07 19:18:38 4722

原创谷歌发布号称超过GPT-4V的大模型Gemini：4个版本，最大的Gemini的MMLU得分90.04，首次超过90的大模型

这部分和OpenAI一样，没有过多的细节，只知道这个模型是Decoder-only的transformer模型，但是针对谷歌的TPU和大规模训练做了优化。这是一系列的多模态的大模型，在各项评分中超过了GPT-4V，可能是目前最强的模型。Gemini-Pro是比Ultra小一点版本的模型，也没有公布参数，据猜测在1000亿以上，在自然语言理解、可视化、分析等方面工作能力较强；Gemini分为三个版本，最大的是Gemini-Ultra，然后是Gemini-Pro，最小的是Gemini-Nano；

2023-12-07 10:24:26 1568

原创通用基座大模型是否可以超越领域专有大模型？微软最新论文证明这是可以的！微软最新动态Prompt技术——MedPrompt详解

本文来自DataLearnerAI官方网站：通用基座大模型是否可以超越领域专有大模型？微软最新论文证明这是可以的！微软最新动态Prompt技术——MedPrompt详解 | 数据学习者官方网站(Datalearner)在GPT-4这种超大基座模型发布之后，一个非常活跃的方向是专有模型的发展。即一个普遍的观点认为，基座大模型虽然有很好的通用基础知识，但是对于专有的领域如医学、金融领域等，缺少专门的语料训练，因此可能表现并不那么好。

2023-12-06 22:32:26 1357

原创重磅！苹果官方发布大模型框架：一个可以充分利用苹果统一内存的新的大模型框架MLX，你的MacBook可以一键运行LLaMA了

本文来自DataLearnerAI官方网站：重磅！苹果官方发布大模型框架：一个可以充分利用苹果统一内存的新的大模型框架MLX，你的MacBook可以一键运行LLaMA了 | 数据学习者官方网站(Datalearner)苹果刚刚发布了一个全新的机器学习矿机MLX，这是一个类似NumPy数组的框架，目的是可以在苹果的芯片上更加高效地运行各种机器学习模型，当然最主要的目的是大模型。MLX框架简介。

2023-12-06 22:30:03 2199

原创李开复创业公司零一万物开源迄今为止最长上下文大模型：Yi-6B和Yi-34B，支持200K超长上下文

这是李开复亲自担任CEO的一家企业，可以说相当地重视。Yi系列模型名称模型参数上下文长度DataLearner模型信息卡地址Yi-6B60亿4K/32KYi-6B（Yi-6B）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | 数据学习 (DataLearner)Yi-6B-200K60亿200KYi-6B-200K（Yi-6B-200K）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | 数据学习 (DataLearner)Yi-34B340亿4K/32K。

2023-11-09 22:16:56 1190

原创 GPT-4-Turbo的128K长度上下文性能如何？超过73K Tokens的数据支持依然不太好！

GPT-4 Turbo是OpenAI最新发布的号称性能超过当前GPT-4的模型。除了速度和质量外，GPT-4 Turbo最吸引人的是支持128K超长上下文输入。但是，实际测试中GPT-4 Turbo对于超过73K tokens文档的理解能力急速下降。图的横坐标是文档的长度，纵坐标是插入的文本在文档的位置。，这意味着，如果你的文档超过了50万单词之后可能GPT-4并不能准确找到你问题的答案位置；在文档7%-50%的位置，那么GPT-4能找到的概率最低。这可能意味着模型对文档开头的信息有更好的记忆能力。

2023-11-09 22:15:11 3202

原创 ChatGPT即将可以读取谷歌和微软的云盘数据为你管理私有数据！

而截止目前为止，OpenAI公开的ChatGPT的订阅计划包含三个：免费版本的ChatGPT-3.5、个人用户付费订阅的ChatGPT Plus以及面向企业的企业版本。而最新的ChatGPT的API接口显示，OpenAI即将推出一个Team版本的计划，是当前ChatGPT Plus版本的升级版！此前，在ChatGPT的js脚本中就隐藏了即将发布的ChatGPT Team计划。ChatGPT的发展速度很快，在前面已经介绍过ChatGPT即将推出的Team订阅计划和新界面，包括对接自定义数据和自定义接口等。

2023-11-05 09:49:48 541

原创马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力？新消息泄露该模型支持2.5万个字符上下文！

本文原文来自DataLearnerAI官方网站：马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力？新消息泄露该模型支持2.5万个字符上下文！| 数据学习者官方网站(Datalearner)马斯克透露xAI即将发布它的首个大模型Grōk AI。而一位老哥已经透露了该模型的一些细节。

2023-11-05 09:47:31 261

原创最新OpenAI的API透露，ChatGPT Plus外还有升级版的订阅计划：ChatGPT Team！25美元一个月！Plus用户可能没有GPT-4-32K了！

而截止目前为止，OpenAI公开的ChatGPT的订阅计划包含三个：免费版本的ChatGPT-3.5、个人用户付费订阅的ChatGPT Plus以及面向企业的企业版本。而最新的ChatGPT的API接口显示，OpenAI即将推出一个Team版本的计划，是当前ChatGPT Plus版本的升级版！最新OpenAI的API透露，ChatGPT Plus外还有升级版的订阅计划：ChatGPT Team！最新OpenAI的API透露，ChatGPT Plus外还有升级版的订阅计划：ChatGPT Team！

2023-11-02 23:19:41 756

原创 ChatGPT 3.5只有200亿规模的参数？最新微软的论文暴漏OpenAI的ChatGPT的参数规模远低于1750亿！

2022年11月底发布的ChatGPT是基于OpenAI的GPT-3优化得到的可以进行对话的一个产品。直到今年更新到3.5和4之后，官方分为两个产品服务，其中ChatGPT 3.5是基于gpt-3.5-turbo打造，免费试用。因此，几乎所有人都自然认为这是一个与GPT-3具有同等规模参数的大模型，也就是说有1750亿参数规模。但是，在10月26日微软公布的CodeFusion论文的对比中，大家发现，微软的表格里面写的ChatGPT 3.5只有200亿参数规模。

2023-10-31 17:09:51 911

原创苹果最新的M3系列芯片对于大模型的使用来说未来价值如何？结果可能不太好！M3芯片与A100算力对比！

M3系列芯片是苹果最新发布的芯片。由于苹果的统一内存架构以及它的超大内存，此前很多人发现可以使用苹果的电脑来运行大语言模型。尽管它的运行速度不如英伟达最先进的显卡，但是由于超大的内存（显存），它可以载入非常大规模的模型。尽管它的运行速度不如英伟达最先进的显卡，但是由于超大的内存（显存），它可以载入非常大规模的模型。对于大模型的推理来说，M3系列芯片最大的优势是载入更大的模型，而使用更少的资源。尽管苹果的芯片并不是为了大模型设计，但是苹果的一个所谓的统一内存架构和超高的内存带宽让支撑了较大规模的大模型运行。

2023-10-31 17:08:34 1956

原创可能是史上最强大的AI Agent！OpenAI重磅更新：整合了多模态、外部访问、数据分析后的GPT-4更像是AI Agent了！

目前最强的大语言模型必然是OpenAI的GPT-4模型，此前OpenAI的ChatGPT Plus版本为GPT-4模型提供了多个强大的插件供大家使用，包括基于Bing的带网络浏览的Browse、文本生成图片的DALL·E3、高级数据分析功能等。就在几个小时前，OpenAI的部分用户收到了官方的一个非常重磅的更新，即上传任意文档的分析以及。以网友的实测为例，在新的GPT-4模式下，你可以直接输入如下类似如下内容：让GPT-4查询2023年某个地方的天气，并展示总结这些天气结果，并生成未来类似的天气。

2023-10-29 15:24:50 356

log4j 2使用教程

空空如也