OpenAI对咱中国“停服” ,国内各家大模型众志成城纷纷应对!谁能替代GPT-4o?国产大模型到底哪家强?

在周二的凌晨时分,来自中国大陆以及全球多个国家和地区的API开发者们纷纷在社交媒体上发声,他们透露自己收到了一封来自OpenAI的电子邮件。邮件中提到,OpenAI将实施一些额外的措施,以限制那些不在公司支持列表上的地区使用其API服务。

邮件截图在网络上广泛传播,其中OpenAI明确指出:“我们的数据分析显示,贵组织有部分API流量来自我们目前尚未支持的地区。自7月9日起,我们将采取进一步行动,禁止那些不在OpenAI支持区域列表中的API使用。”

OpenAI在其发布的"支持访问国家和地区"列表中并未包括中国大陆、中国香港、俄罗斯、朝鲜、叙利亚和伊朗等地区。

此前,OpenAI已对中国大陆用户设置了注册限制,限制了他们访问ChatGPT服务的权限。中国大陆的开发者在开发基于OpenAI API的衍生服务时,通常需要通过代理服务器或在海外部署反向代理,这不仅增加了运营成本,还无法确保服务的稳定性。

国内大模型厂商回应

OpenAI的这一决定迅速引起了国内大型模型厂商的回应,他们纷纷表示可以为企业用户提供无缝迁移的支持。下面国内各大厂商的团结之战资讯汇总,供大家快速一览:

智谱:智谱反应最快,在其官方微博发布了面向OpenAI API用户的特别搬家计划,提供1.5亿Token的迁移支持,并提供从OpenAI到GLM的系列迁移培训。

百度智能云千帆:推出了名为“故乡的云”的大模型普惠计划,意在欢迎国内用户回归,并实现“0成本切换”。具体措施包括为新注册企业用户提供0元调用服务,赠送ERNIE3.5旗舰模型5000万Tokens包,主力模型ERNIE Speed/ERNIE Lite和轻量模型ERNIE Tiny持续免费;针对OpenAI迁移用户额外赠送与OpenAI使用规模对等的ERNIE3.5旗舰模型Tokens包,并支持0元训练、0元迁移、0元服务。

阿里云:宣布将qwen-plus大模型的API定价为OpenAI的1/50,输入价格为0.004元/1,000 tokens,输出价格为0.012元/1,000 tokens。

硅基流动(SiliconFlow):将Qwen2-7B、GLM-4-9B、Yi-1.5-9B等开源大模型永久免费,并鼓励大家使用,但同时提醒不要过度使用导致破产。

国内各大模型公司在面对OpenAI停止服务的挑战时,积极推出各种优惠和支持措施,众志成城的同时!也都试图抓住这一关键的“窗口期”,争取到更多的开发者用户。

既然早晚都要换,那应该选择哪一家的模型呢?国内各家在一众试图“超越GPT”的大模型中,哪个大模型实力最强呢?接下来我不妨就一起来看看模型测评榜,了解下国内各家优秀的大模型的水平,方便我们更好的做出选择。

全球LLM模型测评

LMSYS,全称LMSYS Organization,是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学联合发起的机构,致力于LLM模型的研究与评价。该机构打造了一个名为Chatbot Arena的公共评估平台,该平台致力于通过用户反馈来衡量和对比各种LLM模型的表现。Chatbot Arena的主打功能涵盖了模型对决(Arena Battle)、即时对话(Direct Chat)以及排行榜(Leaderboard)。

LMSYS采用了与国际象棋等竞技体育中普遍应用的Elo评分体系相似的方法,通过众包手段执行匿名且随机的对抗性测评。在Chatbot Arena平台上,系统将随机配对两个不同的大型语言模型进行较量,用户在与这些模型互动的过程中进行评价,并在匿名状态下挑选出表现更优的模型。这种评价机制旨在营造一个公平、开放的评估氛围,以协助研究者和开发者深入理解和优化他们的模型。

截至目前,LMSYS共有99个大语言模型参与测评,总投票数已超百万:

OpenCompass2.0模型测评

模型开源开放评测体系司南(OpenCompass2.0)是由上海人工智能实验室(Shanghai AI Laboratory)发布的一款大模型评测体系。揭晓了2024年5月最新的大模型评测榜单。最新的结果显示,GPT-4o在各项评测中均获最佳表现,GPT-4-Turbo蝉联榜2,OpenAI还是稳稳的拿住了冠亚军的席位。但是!国内厂商近期发布的模型紧随其后,包括字节Doubao-pro-4k、阿里巴巴Qwen-Max、零一万物的Yi-Large、智谱清言GLM-4、百川智能的Baichuan大模型。

OpenCompass为模型提供评测服务,量化各个模型在知识、语言、理解、推理和考试等五大能力维度的表现并给出评分。根据测评结果总体来看,大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是大模型普遍面临的难题,国内大模型相比于GPT-4o还存在差距。中文场景下国内最新大模型已展现出优势,在部分维度上接近GPT-4-Turbo的水平。

通过这些评测结果,可以看出国内大模型在追赶国际先进水平方面已经取得了显著进展,尤其是在语言理解和创作等能力上。然而,在复杂推理、数学和代码能力等方面,国内大模型与国际顶尖模型相比仍有提升空间。

上榜国产模型介绍

零一万物Yi-Large

LMSYS测评榜第7名,这是目前国产LLM模型在LMSYS榜单中的最高排名,OpenCompass2.0第6,来自零一万物的Yi-Large。仅次于一些万亿级别超大参数规模的旗舰模型如GPT-4o和Gemini 1.5 Pro等。Yi-Large在中文能力上特别突出,在LMSYS的中文语言分榜上与OpenAI的GPT-4o并列第一。

Yi-Large模型的尺寸不到谷歌、OpenAI等公司的1/10,使用的GPU算力也仅为他们的1/10。零一万物的团队规模相对较小,但在模型训练上的每一步决策都是正确的,包括提升数据质量和做scaling Law,以及重视Infra的建设。零一万物的CEO李开复表示,公司希望从最小到最大的模型都能够做到中国最好,并在代码、中文、英文等多方面表现出色。

此外,Yi-Large在一些挑战性任务评测中排名靠前,在编程能力、长提问及艰难提示词的评测中均位列全球第二,显示了其在专业性和高难度任务上的强大能力。零一万物的Yi-Large模型展现了公司在大模型技术领域的突破,以及在追赶国际顶尖AI团队方面取得的显著进展。

https://platform.lingyiwanwu.com/

阿里Qwen-Max-0428

来自阿里的通义系列模型之一的Qwen-Max-0428,LMSYS测评榜第14名。

阿里云推出的Qwen-Max-0428是通义千问系列中的一个千亿级别的超大规模语言模型。它支持中文、英文等多种语言输入,并具备强大的语言处理能力,能够为用户提供高效、智能的语言服务体验。Qwen-Max-0428模型特别适用于聊天服务,经过指令调优,能够提供更自然、流畅的对话体验。

Qwen-Max-0428模型在多模态大模型领域展现出业内领先水平,不仅在多项图文多模态标准测试中获得了优异的成绩,而且在真实场景中解决问题的能力也有显著提高,包括对话、识别名人和地标、生成文本内容以及视觉推理等。

Qwen-Max-0428模型在LMSYS和OpenCompass排行榜中均表现突出,证明了其在多模态大模型领域的竞争力。随着阿里云在大模型技术方面的持续创新和开源战略,Qwen-Max-0428及其系列产品有望在AI领域发挥更大的作用,推动多模态AI技术的发展和应用。

https://tongyi.aliyun.com/

智谱GLM-4-0116

智谱AI在2024年1月16日的技术开放日上发布了新一代基座大模型GLM-4-0116。GLM-4-0116的整体性能相较于上一代GLM-3有显著提升,其性能在多个评测集上已经接近或超过GPT-3.5,甚至在某些方面与GPT-4持平。以下是GLM-4-0116的一些关键特性:

长上下文支持:GLM-4-0116支持长达128k的上下文窗口长度,这意味着它可以处理相当于300页文本的单次提示词,显著提升了长文本处理能力。

推理速度与成本:新一代模型具备更快的推理速度,支持更高的并发处理能力,同时大幅度降低了推理成本。

智能体能力:GLM-4-0116在智能体能力上进行了显著增强,能够根据用户意图自动理解、规划并执行复杂指令。它能够自由调用网页浏览器、代码解释器和多模态文生图大模型来完成复杂的任务。

多模态能力:GLM-4-0116推出了CogView3代,其效果超过了开源SD模型,接近DALLE-3,这使得模型在图像识别、语音识别等领域具有广泛的应用潜力。

个性化智能体定制:GLM-4-0116推出了GLMs个性化智能体定制功能,用户可以通过简单的提示词指令创建属于自己的GLM智能体,无需编程基础。

性能对比:在多个数据集上,GLM-4-0116的性能与GPT-4相当,例如在MMLU、GSM8K、MATH等数据集上,GLM-4-0116的性能达到了GPT-4的94%至100%。

大海捞针测试:在长文本准确度测试(Needle in the Haystack)中,GLM-4-0116展现了在128K文本长度内几乎100%的精度召回能力,显示出其在长上下文全局信息处理上的优势。

All Tools能力:GLM-4-0116实现了自主根据用户意图,自动理解、规划复杂指令,调用网页浏览器、Code Interpreter代码解释器和文生图CogView3模型的能力,这使得GLM-4-0116在自动化、智能办公等领域具有巨大的潜力。

智谱AI的GLM-4-0116模型的发布,标志着公司在大模型技术领域的又一重要进展,为开发者和企业提供了更加灵活、个性化的解决方案,并将推动人工智能技术的进一步发展和应用。

https://open.bigmodel.cn/

百川Baichuan4

百川智能的Baichuan 4是该公司推出的最新一代基座大模型,它在多项能力上相较于前一代Baichuan 3有显著提升。具体来说,Baichuan 4在通用能力上的提升超过了10%,数学能力提升了14%,代码能力提升了9%。在SuperCLUE的评测中,Baichuan 4的模型能力在国内排名第一。

Baichuan 4还具备行业领先的多模态能力,在多个评测基准上表现优异,比如在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等评测基准上,大幅领先于其他多模态模型如Gemini Pro、Claude3-sonnet等。

此外,百川智能还基于Baichuan 4推出了首款AI助手应用“百小应”,这是一款类AI搜索的产品,具备多轮搜索、定向搜索等搜索能力,能更精准地理解用户需求,为用户提供专业、丰富的知识和资源。"百小应"AI助手已经在Web端(ying.ai)及移动端各大应用商店同步上线。

Baichuan 4的快速突破得益于在训练过程中引入的多项业界领先技术优化手段,包括基于Model-based+Human-based的协同数据筛选优化方法,科学的Scaling Law对长文本建模位置编码的优化,以及RLHF和RLAIF融合的RLxF强化学习对齐技术等,这些技术的应用有效提升了模型的关键指标和稳定性。

百川智能通过MaaS+AaaS服务,将Baichuan 4的强大能力开放给企业客户,以帮助企业提升生产力和生产效率。MaaS版块由旗舰版和专业版组成,旗舰版将全量开放Baichuan 4的各项能力,而专业版则提供了更实惠的价格和针对性优化的企业高频场景应用。

https://www.baichuan-ai.com/home

字节Doubao-pro-4k

Doubao-pro-4k 是字节跳动旗下的豆包大模型系列中的一个高性能模型。它专为处理复杂任务而设计,能够胜任多种场景,包括但不限于参考问答、总结摘要、创作、文本分类和角色扮演等。此模型支持4k上下文窗口的推理和精调,意味着它能够处理和记忆长达4000个token的上下文信息,这使得Doubao-pro-4k在理解和生成连贯、上下文相关的响应方面表现出色。

在火山引擎原动力大会上,豆包大模型正式发布,并披露了Doubao-pro-4k在多个业界公认的基准测试集中的评测成绩。在包括MMLU、BBH、GSM8K和HumanEval等11个测试集上,Doubao-pro-4k的总体得分达到了76.8分,相较于前一代模型Skylark2提高了19%,这个成绩在同期测试的所有国产模型中也是表现最佳的。

Doubao-pro-4k在代码能力评测集HumanEval和MBPP上的性能提升了大约50%,在专业知识和指令遵循的测试集上分别实现了33%和24%的性能提升,并且在这些领域中得分是所有国产模型中最高的。此外,它在数学和语言理解能力方面也有出色的表现,除了在OpenCompass上成绩优异,在综合评测集CMMLU和CEval的测试中得分位于前三名。

尽管与国际领先的模型如OpenAI的GPT-4相比,Doubao-pro-4k还存在一定的差距,但其性能的显著提升和多场景应用能力,已经引起了行业的广泛关注,并展现出国产大模型在AI领域的强大潜力和竞争力。

https://www.volcengine.com/product/doubao

百度千帆ERNIE、Qianfan-Chinese-Llama-2-70B

百度智能云千帆大模型平台本身不是一个单独的模型,而是一个集成了多种自研大模型的在线开发与应用平台,平台中包含了百度的文心大模型系列,例如文心一言(ERNIE-Bot)等。此外,平台还支持第三方开源大模型的接入和使用。提供包括文心一言底层模型和第三方开源大模型在内的多种AI开发工具和整套开发环境。该平台支持数据管理、自动化模型微调(SFT)以及推理服务云端部署的一站式大模型定制服务,助力各行业的生成式AI应用需求落地。

千帆大模型平台2.0版本进行了全面升级,带来了多项改进,包括工具链的紧密结合、算力效能的优化、数据方面的增强以及企业级安全的提升。平台底层集合了异构算力集群、高速互联网络和高性能存储,能够支撑万卡规模训练的AI算力基础设施,从而降低大模型训练和推理的成本。

此外,千帆大模型平台在数据方面进行了中文增强,大幅提升了大模型的中文理解和生成能力,例如对Llama2等国外大模型实现了良好的中文对话效果。平台还提供了103个预置Prompt模板,覆盖了对话、编程、电商等十余个场景,使企业能够快速集成和应用大模型技术。

ERNIE 4.0作为百度智能云千帆大模型平台的最强模型之一,与Qianfan-Chinese-Llama-2-70B相比,具有全面升级的模型能力,特别是在集成搜索和多任务处理方面。而Qianfan-Chinese-Llama-2-70B则是千帆团队在Llama-2-70B基础上进行中文增强的版本,在中文理解和生成上表现优异。两者各有特点,适用于不同的应用场景和需求。

https://qianfan.cloud.baidu.com/

腾讯Tencent Hunyuan

腾讯混元大模型是腾讯公司全链路自研的通用大语言模型,以其超千亿参数规模和2万亿tokens的预训练语料,在中文创作、复杂语境逻辑推理以及任务执行方面展现出卓越的能力。该模型不仅支持持续训练和终身学习,以不断优化其性能,还特别擅长处理多轮对话,能够流畅地完成专业领域的问答。内容创作方面,混元大模型支持文学创作、文本摘要和角色扮演等多种形式,同时通过知识增强有效解决了事实性和时效性问题,提升了内容生成的效果。

腾讯混元大模型的多模态能力使其能够根据文本指令生成图像,进一步拓宽了模型的表达和应用范围。它在文档创作、会议助手、广告营销等多种应用场景中都展现出了其实用性和高效性。此外,腾讯混元大模型的开源精神和对社区的贡献,以及在腾讯生态内50多个业务和产品的集成应用,证明了其技术的成熟度和实际应用的广泛性。腾讯混元大模型的推出,是腾讯在AI领域技术实力的体现,也是其对未来技术趋势把握的明确信号。

https://cloud.tencent.com/product/hunyuan

【海外】上榜(还能用的)模型介绍

谷歌Gemini

在这个最新的排行榜里,谷歌的Gemini 1.5 Pro以微弱的优势打败了Claude 3 Opus,位居第四。Gemini 1.5 Pro模型,首先是它的上下文长度,达到了惊人的100万(确切的说是104万tokens),而5月份的谷歌I/O开发者大会上,更是宣布的上下文长度已经达到了200万。同时还支持多模态能力。最重磅的是它支持视频输入,直接就能够分析视频内容。

Gemini是微软推出的一款大型语言模型,它代表了微软在人工智能领域的技术实力和创新进展。以下是Gemini模型的一些关键特性:

  • 多模态能力:Gemini模型具备处理和理解多模态数据的能力,例如结合文本、图像和视频内容,提供更丰富的理解和生成能力。

  • 长文本处理:它支持长文本的输入和处理,能够理解和生成更长篇幅的内容,适合需要深入分析和创造性写作的任务。

  • 先进的自然语言理解:Gemini在自然语言理解方面表现出色,能够准确把握语言的细微差别和复杂语境。

  • 高性能:模型在多项自然语言处理任务上展现出高性能,包括语言翻译、摘要生成、问题回答等。

  • 持续学习和适应:Gemini设计有持续学习和适应的能力,可以通过不断训练来优化其性能和适应性。

  • 广泛的应用场景:适用于多种应用场景,如聊天机器人、内容推荐系统、自动化办公助手等。

  • 安全性和可靠性:微软注重模型的安全性和可靠性,确保生成的内容符合道德和法律规定。

  • 集成微软生态系统:作为微软的产品,Gemini很可能与微软的其他服务和产品紧密集成,如Azure云服务、Office 365等。

Claude 3

Claude 3是Anthropic公司推出的新一代AI大模型系列,旨在提供更高层次的智能和更广泛的应用能力。Claude 3系列包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus三种不同能力的模型,各自具有独特的特点和应用场景:

  1. Claude 3 Opus:作为系列中的顶级模型,Claude 3 Opus在多个评估基准上表现优于同类产品,包括MMLU、GPQA和GSM8K等,展现出接近人类水平的理解力和流畅性210216。

  2. 多模态输入:Claude 3支持多模态输入,能够处理文本、图像、图表等多种格式的数据,具有先进的视觉理解能力212217。

  3. 长上下文处理:Claude 3 Opus能够处理长达20万token的超长上下文信息,适合对海量文本进行准确理解和分析212。

  4. 快速响应:Claude 3 Sonnet在实时任务中表现出色,如客户聊天、自动完成和数据提取等,提供即时和实时的响应210。

  5. 准确性提高:与前一代模型相比,Claude 3在开放式问题上的准确率显著提高,减少了错误答案,并计划引入引用功能来验证答案210。

  6. 安全性和透明度:Anthropic团队致力于提高模型的安全性和透明度,开发了宪法人工智能(Constitutional AI)等方法,并持续对模型进行微调以减轻隐私问题210。

  7. 易用性:Claude 3更善于遵循复杂的多步骤指令,以JSON等格式生成结构化输出,便于自然语言分类和情感分析等用例210。

Claude 3系列模型的发布标志着AI技术在智能水平、多模态处理能力以及长文本理解方面的重大进步,为AI应用提供了更多可能性。

虽然短期来看,OpenAI的这一决定可能会对国内AI行业带来一定的影响,但从长远来看,这也会成为国内大模型发展的一次重要机遇,促使国内公司加速自主研发和技术创新!让我们用开放接收和拥抱变化的态度,继续在AI飞速发展的时代中坚定不移的前行吧!

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值