普通网友-CSDN博客

原创挑战《黑神话：悟空》：你的电脑配置够格吗？

无论哪个配置等级，官方都建议至少有 130GB 的存储空间，虽然支持机械硬盘，但推荐使用固态硬盘（SSD）以获得更快的加载速度和更流畅的游戏体验。《黑神话：悟空》支持全景光线追踪技术，这意味着游戏的光影效果将达到前所未有的逼真程度,但要开启这一功能，你的电脑配置需要达到一定的标准。根据官方发布的配置要求，我们可以将《黑神话：悟空》的配置分为三个等级：最低配置、推荐配置和最佳体验配置。《黑神话：悟空》取材自中国古典名著《西游记》，玩家将扮演齐天大圣孙悟空，体验一段惊心动魄的冒险旅程。

2024-08-23 12:13:33 495

原创一文看懂GraphRAG：蚂蚁集团联合各所名校出品GraphRAG综述

GraphRAG 是借助外部结构化知识图谱来增进语言模型的上下文理解，并生成更具洞见响应的框架。GraphRAG 的目标在于从数据库中检索出最为相关的知识，进而提升下游任务的答案质量。鉴于候选子图的数量会随着图的规模呈指数增长，故而需要有效的近似方法。由此，运用图检索器提取最优子图，而后生成器依据检索到的子图生成答案。所以，将 GraphRAG 的整个流程拆解为三个主要阶段：基于图的索引、图引导检索和图增强生成。

2024-08-23 12:12:56 364

原创一文讲明白大模型显存占用（只考虑单卡）

顾名思义，混合精度训练就是将多种不同的精度数据混合在一起训练，《 MIXED PRECISION TRAINING 》这篇论文里将FP16和FP32混合，优化器用的是Adam，如下图所示：MIXED PRECISION TRAINING论文里的训练流程图按照训练运行的逻辑来讲：Step1:优化器会先备份一份FP32精度的模型权重，初始化好FP32精度的一阶和二阶动量（用于更新权重）。Step2:开辟一块新的存储空间，将FP32精度的模型权重转换为FP16精度的模型权重。

2024-08-23 12:12:19 378

原创极限套娃，Agent自动设计Agentic系统！

指导元Agent迭代地编程新代理，测试它们在任务上的性能，将它们添加到已发现Agent的存档中，并使用这个存档来通知后续迭代中的元Agent。(b) 元智能体搜索在ARC挑战上发现的最佳智能体的可视化。评估函数（Evaluation Function）：根据ADAS算法的应用，可能考虑不同的目标来优化，如性能、成本、延迟或智能体的安全性。在这里，收集并呈现了元智能体在提示中可能犯的一些常见错误，这在提高生成代码的质量方面是有效的。在元智能体的第一次响应之后，进行两轮自我反思，以使生成的智能体新颖且无错误。

2024-08-22 14:53:00 604

原创深圳大学教授自曝工资收入

其中，有33%的教授收入位于20000-25000元/月的区间，另外33%的教授收入位于30000-35000元/月的区间。总的来说，大学教授的收入普遍较高，但同样的职位却有着千差万别的收入。不同的学科领域有着各自独特的市场需求和发展空间，这也会对教授的收入产生积极或消极的影响。综上所述，大学教授的工资虽然普遍较高，但具体的收入水平还要受到所在城市、所在高校的声誉以及专业领域等多重因素的影响。一所威名远扬的高校往往能提供更多的资源和机会，为教授们创造更好的工作环境，从而影响他们的收入水平。

2024-08-22 14:51:24 310

原创 LLM预训练和后训练新范式

在查看 Qwen 2 技术报告中讨论的预训练和后训练方法之前，我们先简要总结一些核心规格。Qwen 2 模型有5种类型。有4个常规（密集）LLM，参数量分别为5亿、15亿、70亿和720亿。此外，还有一个57亿参数的专家混合模型，其中有14亿参数同时被激活。（由于架构细节不是这次的重点，我不会深入讨论专家混合模型；简而言之，这类似于Mistral AI的Mixtral，只是它有更多的活跃专家。高级概述请参见我的模型合并、专家混合和迈向更小的LLM文章中的 Mixtral 架构部分。

2024-08-22 14:50:27 767

原创博士生淘汰制，来了！

2012年，南京大学启动了博士生“四三三”教育改革，核心是实施博士生资格考核，对排名在后15%的博士生实施弹性分流，以此督促博士生。南京大学“四三三”博士研究生教育改革的实施，将严格的中期考核和分流退出机制在全校范围内落地，对博士生保持适当的压力，并把压力转变成动力，使博士生的学习积极性得到大幅度提升。所谓分流，是指在研究生的培养过程中，对研究生进行考核、筛选、分流和淘汰，对于不适合继续进行博士研究生培养的学生，在毕业与退学之间提供多种出路方式，常见的分流方式包括直接退出、向较低一级分流培养比如博转硕等。

2024-08-21 16:34:30 637

原创 AgentWrite：为什么你的模型生成的内容长度总是不超过2K?

此外，+Parallel虽然在一定程度上提升了模型的输出长度得分，却。

2024-08-21 16:33:56 633

原创大圣真的归来了？《黑神话：悟空》震撼上线，登顶全球游戏榜首！！！

每日经济新闻》报道，根据2024国游销量半年榜，游戏在预售一个月后，销售额就达到了3.9亿元，销量为120万份，大幅打破国产游戏此前的预售纪录（10万级）。其中，DLSS帧生成的卷积自动编码器，有四个输入源——当前和之前的游戏帧，由Ada Lovelace架构下的光流加速器生成的光流场，以及运动矢量和深度等游戏引擎数据。而且，粒子还有独特的性质，比如有些粒子很小、难以捕捉，有些需要自动调整方向，有些则具有特殊的形状，比如模拟光柱的粒子。这边，有的人纷纷卡在了解压过程，那边，有的人已经开始上手打怪了。

2024-08-21 16:33:19 798

原创 RAGChecker为你的RAG系统提供全方位诊断

检索器组件基于声明召回率（CR）和上下文精确度（CP）进行评估，而生成器组件则通过上下文利用度（CU）、相关噪声敏感性（NS(I)）、不相关噪声敏感性（NS(II)）、幻觉（Hallu.）、自我知识（SK）和忠实度（Faith.）进行诊断。在上下文长度有限的情况下，更倾向于选择较大的片段大小和较小的k，特别是对于较容易的数据集（金融、写作）。上面的维恩图展示了模型响应与真实答案之间的比较，显示了可能的正确（O）、错误（X）和缺失的声明（V）。与人类评估的正确性、完整性和整体评估的相关性结果。

2024-08-20 15:49:58 893

原创阿里开源通用多模态大模型mPLUG-Owl3：迈向多图长序列理解

作者：徐海洋，阿里通义实验室-多模态mPLUG原文：https://zhuanlan.zhihu.com/p/714393074阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式，到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯，再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。

2024-08-20 15:49:26 741

原创 LLM预训练和后训练新范式

在查看 https://arxiv.org/abs/2407.10671中讨论的预训练和后训练方法之前，我们先简要总结一些核心规格。Qwen 2 模型有5种类型。有4个常规（密集）LLM，参数量分别为5亿、15亿、70亿和720亿。此外，还有一个57亿参数的专家混合模型，其中有14亿参数同时被激活。（由于架构细节不是这次的重点，我不会深入讨论专家混合模型；简而言之，这类似于Mistral AI的Mixtral，只是它有更多的活跃专家。

2024-08-20 15:48:54 722

原创热议！博士一毕业，直接回老家县城大专任教，事业编、副教授待遇，外加几十万安家费…

好几个人说我读了博士就这点眼光这点追求，我更想说一句，博士之间亦有差距，一个普通博跟名校博士、留洋博士没得比，导师的资源也是重要问题，还有前天热榜清华老哥今年十几篇sci，我作为一个博士里lol段位最高的学渣，眼光高也没用，能力达不到，出身又低，资源也不行，所以属实是卷不过。我不能说我的选择就是正确的，这只是我个人的选择罢了，我在上海工作过，工资也不低，但是每天上班挤地铁，下班回到出租屋，看不到未来。每个月几千块钱的补助连发三年，还给安排周转房，出门可以刷人才卡，公交地铁免费，当然去市里才有地铁。

2024-08-19 14:26:20 454

原创非Transformer时代到来！全新无注意力模式超越Llama传奇

例如，在 Arc、TruthfulQA 和 GSM8K 基准测试中，Falcon Mamba 7B 的得分分别为 62.03%，53.42% 和 52.54%，超过了 Llama 3 8 B, Llama 3.1 8B, Gemma 7B 和 Mistral 7B。具体而言，Falcon Mamba 7B 经过了 AdamW 优化器、WSD（预热 - 稳定 - 衰减）学习率计划的训练，并且在前 50 GT 的训练过程中，batch 大小从 b_min=128 增加到了 b_max=2048。

2024-08-19 14:25:47 972

原创为什么最近多模态大模型工作中用Q-Former结构的变少了？

比较深入地分析了 Q-former 结构的问题。

2024-08-19 14:24:10 999

原创一个更小、更快、更干净的GraphRAG！

一个简单，易于修改的GraphRAG实现😭 GraphRAG很好很强大，但是官方实现很难/痛苦地阅读或修改。😊 这个项目提供了一个更小、更快、更干净的GraphRAG，同时保留了核心功能（见基准测试和问题）。🎁 除了测试和提示，nano-graphrag大约有800行代码。👌 小而可扩展，异步且完全类型化。下载查尔斯·狄更斯的《圣诞颂歌》副本使用下面的Python代码片段下次你从相同的工作目录初始化GraphRAG时，它将自动重新加载所有上下文。

2024-08-18 09:55:00 572

原创自愿离职！每人补偿400万

英特尔计划将2024年新工厂和设备的支出削减20%以上，目前的预算为250亿美元至270亿美元，明年的支出将在200亿美元至230亿美元之间。同时，英特尔给出了令人失望的业绩指引，预计2024年第三季度收入为125亿美元至135亿美元之间，远低于市场此前预期的143.5亿美元；申请该提案的员工将于9月6日获悉离职是否获批，获批的员工将于9月30日离开英特尔。8月13日消息，据外媒报道，英特尔在爱尔兰裁员补偿方案出炉，该公司向当地员工提供了高达50万欧元（约合人民币392.17万元）的自愿离职补偿金！

2024-08-18 09:54:26 335

原创三万字详解！GPT-5：你需要知道的一切

作者：Alberto Romero原文：https://www.thealgorithmicbridge.com/p/gpt-5-everything-you-need-to-know这篇超长的文章（部分是评论，部分是探索）是关于 GPT-5 的。但它的内容远不止于此。它讲述了我们对下一代人工智能模型的期望。它讲述了即将出现的令人兴奋的新功能（如推理和代理）。它讲述了 GPT-5 技术和 GPT-5 产品。它讲述了 OpenAI 面临的竞争业务压力以及其工程师面临的技术限制。

2024-08-18 09:53:54 1460

原创英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强

Llama-3.1-Minitron-4B-Depth-Base 变体是最快的，平均吞吐量约为 Llama 3.1 8B 的 2.7 倍，而 Llama-3.1-Minitron-4B-Width-Base 变体的平均吞吐量约为 Llama 3.1 8B 的 1.8 倍。英伟达观察到：开始和结束的层是最重要的。Llama-3.1-Minitron 4B 的表现优于类似大小的最先进的开源模型，包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。

2024-08-17 17:23:07 521

原创 RAGAS：实现检索增强生成的自动化评估

要求检索到的上下文应集中且精准，尽量减少无关信息的干扰。：要求答案必须植根于所提供的上下文中，有助于预防幻觉现象，并确保所检索的上下文能为生成的答案提供合理依据。接着，对于陈述集中的每项陈述si，LLM通过验证函数v(si, c(q))来判定si是否能够由上下文c(q)所支持。最终的忠实度得分F，通过公式F = |V| / |S|来计算，其中|V|表示LLM确认为得到支持的陈述数量，而|S|则是陈述的总数。当答案as(q)中的各项主张能够从上下文c(q)中推导出来时，认为这个答案是对上下文的忠实反映。

2024-08-17 17:22:03 697

原创教育厅回复：今年教师减招54.7%

该《办法》还明确，本研衔接师范生公费教育面向全国，重点为中西部省会城市之外的地（市、州、盟）及以下行政区域培养研究生层次中小学教师，不得定向到直辖市、计划单列市或省会城市主城区任教（五个自治区、陆地边境省份、海南省、贵州省、青海省除外），2023届本科生就业占比最高的行业是教育业，比例为13.6%，但相比2019届的15.9%，五年来减少了2.3个百分点。教育部数据显示，2021年，全国共有幼儿园数量29.48万所，2022年为28.92万所，2023年为27.44万所，。

2024-08-17 17:21:00 882

原创笑死！马斯克成Grok2最大受害者，恶搞图满天飞

来源 | 量子位 ID | QbitAI好家伙，马斯克新版大模型一上线，本人把他和川普当街热舞的视频都放出来了。（手动狗头）开个玩笑，不过这一出，马斯克确实忙坏了。白天不知道搁哪个片场扮演斯巴达勇士：晚上就又跟小扎以武会友了：并且胖瘦只在一念之间，从肌肉猛男到200公斤级肥宅，只需要一张图生成的时间。好啦好啦，以上都是𝕏网友们疯玩的结果。毕竟Grok系列大模型打从一出生，就主打一个“叛逆”，老马本人自然逃不过新一轮的网络狂欢。

2024-08-16 16:37:29 731

原创李沐：创业一年，人间三年！

给小伙伴汇报一下LLM创业第一年的进展、纠结和反思在Amazon呆到第五年的时候就想着创业了，但被疫情耽搁了。到第7年半的时候，觉得太痒了，就提了离职。现在想来，如果有什么事这一辈子总要试下的，就蹭早。因为真开始后会发现有太多新东西要学，总感叹为啥没能早点开始。名字：BosonAI的来源创业前做了一系列用Gluon命名的项目。在量子物理里，Gluon是把夸克绑在一起的一种玻色子，象征这个项目一开始是Amazon和Microsoft的联合项目。当时项目经理拍拍脑袋名字就出来了，但取名对程序员来说很

2024-08-16 16:36:48 556

原创太突然！谷歌核心大佬去世！年仅56岁！

公开资料显示，Susan Wojcicki，1968年生在美国加利福尼亚州帕洛阿尔托，毕业于哈佛大学，获有加州大学圣塔克鲁兹分校的理学硕士学位以及加州大学洛杉矶分校安德森管理学院的工商管理硕士学位。当晚，Alphabet首席执行官Sundar Pichai在X平台发文悼念Wojcicki称：“我亲爱的朋友Susan Wojcicki与癌症抗争了两年，对她的离世我感到非常难过。研究者发现，能为奖励坚持忍耐更长时间的小孩通常具有更好的人生表现，如更好的SAT成绩、教育成就、身体质量指数，以及其他指标。

2024-08-16 16:35:06 380

原创马斯克突然「发射」Grok-2 ！爆火AI生图网友玩疯，数学编码追平GPT-4o

下图中可以看出，Grok-2和Grok-2 mini在研究生级别科学知识（GPQA）、数学竞赛问题（MATH），代码（HumanEval）领域，显著提分10%-20%。现在的Grok-2和Grok-2 mini，已经具备了更强的搜索能力和改进的回复功能，并且可以对𝕏的帖子进行更深入的洞察。但是，Grok-2 mini的性能丝毫不输，几乎接近大模型的性能，可见并没有因为参数减少，而缩减模型的性能。宏观讲，相较于之前的Grok-1.5模型，Grok-2和Grok-2 mini都得到了显著的改进。

2024-08-15 14:45:07 713

原创大模型经典PTQ量化方法总结

本文综合LLM.int8()、SmoothQuant、AWQ、GPTQ、FP8等主流PTQ量化方法的论文结论，总结如下：「PS：以上这些方法在实践中验证是有效的，以下结论基于这些方法的相关研究，可用于分析模型效果和评估结论的大致指导，但是，量化误差的影响因素是多元的，不一定所有模型、所有数据都普适」• 权重易量化，激活难量化；• 激活中，不同Tokens的数据分布表现出一致的趋势，异常值出现在固定的一些通道，不同Tokens的相同通道值方差较小；

2024-08-15 14:44:15 848

原创 RAG Foundry：开源RAG框架，数据、推理、测评一条龙

RAG FOUNDRY是一个开源的Python框架，专为开发高级的检索增强型大型语言模型（LLMs）而设计，以应对RAG领域的各种应用场景。支持用户在RAG的各个方面进行快速原型开发和实验，涵盖了从数据筛选、聚合与过滤，到检索、文本处理、文档排序、少量样本生成、模板化的提示设计、微调、推理以及评估等各个环节。该库由四个核心模块构成：数据生成、训练、推理和评估。每个模块都通过配置文件进行封装和控制，确保了模块间的输出输入兼容性。

2024-08-14 15:09:49 735

原创马毅首任院长！港大成立计算与数据科学学院，计算机+统计双剑合璧

在会议方面，他是2024年开办「简约与学习」（CPAL）的联合创始人之一，曾多次担任ICCV、CVPR和NIPS的领域主席，并担任ICCV 2013（澳大利亚）的程序主席和ICCV 2015（智利）的大会主席。重点将放在金融行业的计算方面。过去的研究主题包括高维数据的稀疏表示和低秩逼近、高维数据的聚类、压缩和分类，以及从图像重建3D结构。值得注意的是，模型性能的提升是在保持甚至增强了CRATE模型可解释性的同时实现的，因为更大尺寸的CRATE-α模型学到的token表征能够生成更高质量的无监督图像分割。

2024-08-14 15:09:04 757

原创华为为人才盖楼！上海6000套房！

据报道，历时三年，华为位于上海青浦的研发中心项目全部建成，被命名为“华为练秋湖研发中心”。为保证项目顺利进行，作为总承包方的上海宝冶集团积极协调配合相关单位，督促施工单位倒排工期计划，合理安排工序，抢抓关键节点，同时加强现场监督，全程掌握工程进展，力争按期、保质、安全完成项目建设任务。据了解，位于上海青浦区的华为练秋湖研发中心已与今年7月9日全面建成，占地面积2400亩，总建筑面积206万平方米，总投资超百亿元。项目完成后将提供超过6000套房源，旨在为即将入驻青浦的华为科研人才提供舒适的居住环境。

2024-08-13 17:14:34 172

原创大跌眼镜！AI打造的“绝世美女”，秒变身赛博妖怪！

来源 |量子位 ID | QbitAI赛博照妖镜下，AI美女全变鬼。。把图像饱和度拉满，AI人像的牙齿就会变得非常诡异，边界模糊不清。整体图片的颜色也正常，麦克风部分更是奇怪。对比，则应该是这样的。牙齿是清晰的，图片色块都是均匀一致的。这个工具已经开放，人人都能拿着照片去试试。AI生成视频中的某一帧，也难逃此大法。不漏牙的照片也会暴露问题。不过BTW，这个工具。用AI破解AI，奇妙的闭环。

2024-08-13 17:13:49 636

原创互联网大厂近5年薪资变化汇总概览

数据取决于当年在线职位薪酬样本，并不能完全代表各互联网大厂内部真实情况，仅供参考。网友整理了一份互联网大厂历年薪资的变化图。从这些薪资变化中，也能看出这两年互联网行业的变化。互联网大厂一向以工资高、福利好著称。前段时间腾讯宣布薪资调整，引发了互联网圈的强烈关注。以上互联网大厂历年工资变化统计于各大厂在各大网站发布的公开数据，为了让大家更加清晰地了解整个互联网行业的薪资情况，来源 | 职场大喇叭。

2024-08-13 17:13:05 165

原创谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》

通常，我不是那种轻易相信任何事物的人。比如，尽管我经历了十年前信息安全界的加密货币热潮，我却从未参与撰写任何关于区块链的研究论文。我也从未拥有过任何比特币，因为在我看来，它们除了用于赌博和欺诈之外，没有任何实际价值。我一直持怀疑态度，每当有人向我宣称“某项新技术将改变世界”，我的反应总是冷漠。因此，当第一次有人告诉我人工智能将极大地提升我的工作效率并改变我的日常工作方式时，我同样持保留态度，我的回应是：“见到实际效果我才会信。此外，我是一名安全研究员。

2024-08-12 14:15:03 489

原创后GraphRAG时代，利用KG提升LLM领域问答可解释性的系统Fact Finder！

Table1：展示了 FactFinder 系统在图检索评估中的结果，使用了与真实文本到 Cypher 查询数据集的比较来量化图查询返回的节点。原始的 Cypher 查询通常只返回回答问题所需的节点，而忽略了连接问题实体与答案节点的边。为了解决这个问题，需要生成一个新的 Cypher 查询，它能够同时获取答案节点和连接边。（实现了78%的精度在检索正确的KG节点上），从而提供准确的答案。：对生成的Cypher查询进行预处理，以提高系统的鲁棒性。与生成的Cypher查询和图谱中的答案一起展示。

2024-08-12 14:13:57 409

原创黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

他们将工具进行结构化设计，以不同的抽象层次呈现信息。在最高层，工具展示了完整的处理流程：从接收用户提供的文本作为输入（图 1A），将其嵌入，经过多个 Transformer 块处理，再到使用处理后的数据来对最有可能的下一个 token 预测进行排序。在内容上，Transformer Explainer 紧密集成了对 Transformer 结构进行总结的模型概述，并允许用户在多个抽象层级之间平滑过渡，以可视化低级数学运算和高级模型结构之间的相互作用，帮助他们全面理解 Transformer 中的复杂概念。

2024-08-12 14:12:06 364

原创超越恐怖谷！全球500万网友被骗，爆火TEDx演讲者没一个是真人？

除此以外，新团队曾经的创新成果包括创建VQGAN和潜在扩散（Latent Diffusion）、用于图像和视频生成的SD模型（SD XL 、SVD）以及用于超快速实时图像合成的对抗扩散蒸馏（Adversarial Diffusion Distillation）。- FLUX.1 [pro]：FLUX.1的顶级版本，提供最先进的图像生成，具有一流的提示词跟随能力、视觉质量、图像细节和输出多样性。比如人的舌头不会动，牙齿有些弯曲、扁平，第4秒时左臂出现了奇怪的斑点，还有Google标志处的bug，也非常明显。

2024-08-11 10:24:56 733

原创马龙毕业答辩现场曝光，论文题目是《中国未来乒超营销策略研究》

记者梳理发现，这届奥运健儿，最多的是来自于上海交大安泰经济与管理学院，比如乒乓球运动员马龙、孙颖莎、王曼昱，游泳运动员徐嘉余、汪顺、李冰洁、唐钱婷、费立玮，网球运动员张之臻，篮球运动员韩旭，三人篮球运动员张芷婷，赛艇运动员张书贤等。北京时间8月2日，在巴黎奥运会游泳女子4×200米自由泳接力决赛中，由杨浚瑄、李冰洁、葛楚彤、柳雅欣组成的中国队夺得铜牌，其中，柳雅欣为上海交大国际与公共事务学院2024届校友，李冰洁为上海交大安泰经济与管理学院2024届校友；事实上，上海交大对体育一向重视。

2024-08-11 10:22:02 425

原创乒乓球AI机器人赢了人类！正反手灵活转换，擦网球高球都能接，专业教练：达到中级选手水平

来源 |量子位 ID | QbitAI巴黎奥运会乒乓球团体赛如火如荼，谷歌机器人申请出战——首个达到人类竞技水平的机器人Agent发布！你看一个没留神，就赢了专业教练一个球！正反手快速转换，连续进攻也是不在话下~面对一些突发战术，比如长球高球擦网球，也能沉稳应对。实际测试中，机器人实时适应不同选手风格，最终赢下了与初学者的所有比赛，同中级玩家对打也有55%的胜率。小小乒乓球，拿下！。

2024-08-10 10:24:25 513

原创重磅！Qwen2-Math，新一代数学模型！

在 Math 上的评测结果表明，最大的数学专用模型 Qwen2-Math-72B-Instruct 超越了最先进的模型，包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。Qwen2-Math 的基础模型使用 Qwen2-1.5B/7B/72B 进行初始化，然后在精心设计的数学专用语料库上进行预训练，该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen2 模型合成的数学预训练数据。来源 | PaperAgent。

2024-08-10 10:21:45 457

原创戴尔宣布裁员12500人！去年刚裁13000人.....

他们还涉及营销和运营。戴尔的高管全球销售和客户运营总裁Bill Scannell和全球渠道总裁John Byrne通过一份备忘录通知全体员工，它已开始努力“简化管理层”。根据一位未透露姓名的消息人士向SiliconANGLE透露，从8月6日开始，戴尔计划裁员12500人，受影响的员工主要集中在戴尔的销售和营销团队。公司原本计划裁员5%，但是却整整裁了13000人，是原计划的一倍，去年的裁员就达到了10%。根据戴尔2024年3月下旬发布的公告，截至2024年2月2日，该公司全球员工总数为12万人。

2024-08-10 10:20:42 871

原创奥特曼秀5颗草莓疯狂暗示GPT-5？匿名新模型神秘现身，数学超强！

对此，微软CTO Kevin Scott则反驳称，LLM的「缩放规律」（即模型能力的提升与投入的算力成正比）将继续带来改进，对于下一代模型（比如GPT-5）的训练，仍需更多耐心。当时，OpenAI内部人士表示，Q*可能是公司在AGI方面的一个突破，也就是说，一定程度上实现了在最具经济价值任务上，超越了人类。研究人员们希望，AI不仅仅能够生成针对查询的结果，还可以提前计划，自主可靠地查阅互联网，执行OpenAI所言的「深度研究」的任务。他们发布的模型在某些任务中，能够与GPT-4o抗衡，甚至略胜一筹。

2024-08-09 14:54:04 455

空空如也

空空如也