大模型
文章平均质量分 88
快乐小码农
热爱生活,热爱技术,做一个有态度的四有“中年人”。关注科技进步,聚焦人工智能领域的前沿研究:经典AI、NLP、机器学习、数据挖掘、推荐系统等相关技术。人生不易,勇往直前,分享生活中的小确幸。
展开
-
最新综述:多模态引导的基于文生图大模型的图像编辑算法
近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图(Text-to-Image,T2I)大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月。图2.综述框架旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,得到了广泛研究。近期,大规模文生图(T2I)扩散模型驱动了技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为的常用工具。原创 2024-07-09 10:20:50 · 266 阅读 · 0 评论 -
国产开源多模态大模型来了!浦语灵笔 InternLM-XComposer-2.5,超过GPT-4V
(InternLM-XComposer-2.5,简称IXC-2.5)是基于大语言模型研发的突破性的图文多模态大模型,仅使用7B LLM 后端就达到了 GPT-4V 级别的能力。使用24K交错的图像-文本上下文进行训练,通过ROPE外推可以无缝扩展到 96K 长的上下文。这种长上下文能力使在需要广泛输入和输出上下文的任务中表现出色。原创 2024-07-09 10:00:51 · 83 阅读 · 0 评论 -
智谱AI开源代码生成大模型 CodeGeeX4-ALL-9B
智谱AI 旗下的代码生成大模型 CodeGeeX 正式发布第四代开源版本:CodeGeeX4-ALL-9B,其是集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等能力于一体的代码大模型,是目前百亿(10B)参数以下性能最强、最全能的代码大模型。模型的核心功能 Demo 和使用教程已经在 GitHub 上开源,模型权重可在 HuggingFace、ModelScope、WiseModel 等大模型平台下载。原创 2024-07-09 09:16:03 · 516 阅读 · 0 评论 -
权威!IDC《中国大模型市场主流产品评估,2024》报告发布
6月12日,国际数据公司 IDC 发布《中国大模型市场主流产品评估,2024》,从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。结果显示,百度位于第一梯队,是唯一一家在7大维度上均为优势厂商的企业。图注:IDC 题目类型IDC 采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等,在审核委员会的监督下,最终得出各厂商的评估结果,供用户选型参考。原创 2024-06-18 15:38:09 · 638 阅读 · 0 评论 -
AI 大佬 Andrej Karpathy 推荐:LLM 性能提升的秘密 —— FineWeb 数据集
在上述数据集的基础上,团队推出了 FineWeb-Edu,这是 FineWeb 的一个子集,专注于教育内容,表现优于所有公开可访问的网络数据集。FineWeb-Edu 子集基于最近出现的一种过滤 LLM 训练数据集的新方法:使用合成数据来开发识别教育内容的分类器。为此,FineWeb 团队就深入探讨了如何创建一个用于 LLM 预训练的大型高质量网络规模数据集,并讨论了大规模数据质量的处理和评估、FineWeb 配方(列出并解释了所有的设计选择)以及创建 FineWeb-Edu 子集的过程。原创 2024-06-04 17:24:21 · 842 阅读 · 0 评论 -
ChatTTS:对话式文本转语音模型,开源啦!突破开源语音天花板...
最近,一个名为 ChatTTS 文本转语音项目爆火出圈,短短三天时间,在 GitHub 上已经斩获了 9.2 k 的 Star 量。ChatTTS:对话式文本转语音模型项目地址:https://github.com/2noise/ChatTTS/tree/main体验地址:https://huggingface.co/2Noise/ChatTTSChatTTS 是专门为对话场景设计的文本到语音 TTS 模型。它支持中文和英语,包括中英混合模式。原创 2024-06-04 15:12:51 · 673 阅读 · 2 评论 -
OpenAI 宣布 GPT-4o 向所有人免费开放!
5月30日,OpenAI 宣布,ChatGPT正式向所有用户免费开放!ChatGPT 免费用户现在可以尝试更多 GPT-4o 的新功能,包括访问自定义 GPT 模型、数据分析和图表创建等。此前这些高级功能仅对付费用户开放,现在所有用户均可体验这些功能。不过,在使用次数上官方没有更新公告,预计还是会有一定次数限制。这对于免费用户来说可是大好事,但是对付费用户就有点扎心了,不禁质问:如果每个人都免费,为什么我要付费?其实,免费用户和付费用户还是存在一些区别的。原创 2024-06-04 14:15:05 · 455 阅读 · 0 评论 -
多语言大模型 Aya-23 开源!覆盖23种语言,性能刷新SOTA
近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了解决上述问题,最近,加拿大AI独角兽公司 Cohere 开源了两种参数规模的多语言指令微调模型Aya-23,包括 8B 和 35B 的版本,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。论文链接:https://arxiv.org/pdf/2405.15032。原创 2024-06-04 14:10:02 · 892 阅读 · 0 评论 -
全球最强端侧多模态模型!国产「面壁小钢炮」MiniCPM-Llama3-V 2.5 来了!
得益于 VisCPM 的跨语言泛化技术,在中英双语多模态能力的基础上,MiniCPM-Llama3-V 2.5 仅通过少量翻译的多模态数据的指令微调,高效泛化支持了德语、法语、西班牙语、意大利语、俄语等 30+ 种语言的多模态能力,几乎覆盖了所有一带一路的国家,意味着全球上百个国家的数十亿人口,都能与 MiniCPM-Llama3-V 2.5 丝滑交互。OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现!原创 2024-06-04 13:58:26 · 1769 阅读 · 0 评论 -
大佬 Ilya Sutskever 的神级论文清单,学完掌握当前AI 90%的知识!
在计算机视觉方面,Ilya 推荐了 2012 年 ImageNet 图像识别大赛中图灵奖得主 Geoffrey Hinton 组的论文《ImageNet Classification with Deep Convolutional Neural Networks》,这篇论文提出了 AlexNet,引入了全新的深层结构和 dropout 方法,颠覆了图像识别领域,甚至被认为开启了深度学习革命。Transformer 架构今天已经成为人工智能领域的主流基础架构,特别是它是生成式 AI 模型的核心架构。原创 2024-06-04 13:50:31 · 1349 阅读 · 0 评论 -
AI一周大事记 | 主动式AI应用崛起,国内大模型厂商继续发力,微软AI全家桶狂飙...
5 月 22 日,历时4个月打磨,百川智能发布最新一代基座大模型 Baichuan 4,并推出成立之后的首款AI助手“百小应”。相较于前代Baichuan 3,迭代后的Baichuan 4在各项能力上均有极大提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%,在国内权威大模型评测机构SuperCLUE的评测中,模型能力国内第一。原创 2024-06-04 13:42:27 · 717 阅读 · 0 评论 -
小模型时代来了?苹果开源OpenELM,公开代码、权重、数据集、训练全过程
4月24日,苹果开源了大语言模型(Open-source Efficient Language Models,即“开源高效语言模型”)。这与微软刚开源的Phi-3-mini类似,是一款专门针对手机等移动设备的模型。系列模型包含共4个不同参数版本,共包括,提供生成文本、代码、翻译、总结摘要等功能。基于较小的参数量,这些模型可在端侧设备上独立运行,而不必连接云端服务器。原创 2024-04-26 14:43:35 · 932 阅读 · 0 评论 -
微软发布「轻量级AI模型」Phi-3-mini,性能逼近GPT-3.5,可手机端运行
Phi-3-medium-14B 是新增的最大参数版本的Phi模型,参数140亿,架构与最小的Phi-3-mini-3.8B 相同,但是训练的epoch更多,训练的数据量和 Phi-3-small-7B 一样,4.9万亿tokens。当地时间 4 月 23 日,微软发布了 Phi-3 系列模型,最小参数38亿,最大规模拓展到了140亿,包含3个版本,分别是Phi-3-mini-3.8B、Phi-3-small-7B 和 Phi-3-medium-14B。该模型的体积很小,可以部署在手机上。原创 2024-04-26 14:32:47 · 1163 阅读 · 0 评论 -
一周SOTA:Meta 发布 Llama 3;Mistral AI 开源 Mixtral 8x22B;阿里开源代码模型CodeQwen1.5;面壁 MiniCPM 2.0 发布
Meta 正式开源Llama 3,发布8B、70B参数大小的基础模型和指令微调模型版本,是同等规模中的最佳模型。此外,Llama 3 最大的模型规模超过400B,虽然该模型正在训练中,但 Meta 表示未来将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口和更强大的性能,并将推出新的模型尺寸版本和公开 Llama 3 的研究论文。相比前两代,Llama 3 在训练成本、训练时间、模型架构等多个方面有了很大的升级。上下文长度:Llama系列的上下文长度一直在增长。原创 2024-04-25 09:23:09 · 1308 阅读 · 0 评论 -
最强开源大模型Llama 3发布!最大版本是4000亿参数规模!性能直逼GPT-4!
当地时间4月18日,Meta 官宣发布其最新开源大模型 Llama 3。目前,Llama 3 已经开放了 80亿 和 700亿 两个小参数版本,上下文窗口为8K。未来还有4000亿参数版本,支持多模态、超长上下文、多国语言!原创 2024-04-19 18:11:31 · 1406 阅读 · 0 评论 -
一周最新开源:Stability、Mistral再开源,3个MoE大模型DBRX、Jamba、Qwen1.5-MoE-A2.7B接连开源
上周,Stability AI 开源 Stable Code Instruct-3B,Mistral AI 宣布 Mistral 7B v0.2 Base Model,Databricks 开源了其 MoE 模型 DBRX,通义千问团队发布 MoE 模型:Qwen1.5-MoE-A2.7B,AI21 Labs 宣布开源 MoE 大模型 Jamba。原创 2024-04-17 10:26:29 · 672 阅读 · 0 评论 -
细数AI程序员 Devin、SWE-agent、通义灵码、Devika...,“码农”要失业了吗?
3月12日,美国AI初创公司Cognition AI在X平台发布一条视频,宣布了首位完全自主的AI程序员 Devin 的诞生。第一位接近人类的 AI 程序员,究竟强在哪里?不同于我们在前两年看到的 GitHub Copilot 等 AI 编程助手,Devin 并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。Devin 不仅能自主学习新技术,自己改Bug,甚至还能训练和微调自己的AI模型,表现已然远超GPT-4等“顶流选手”。原创 2024-04-17 10:14:28 · 772 阅读 · 0 评论 -
2024最火热的大模型技术方向:MoE,国产MoE大模型大爆发!
根据官方公布的数据, XVERSE-MoE-A4.2B 模型的评测结果与阿里的Qwen1.5-MoE-A2.7B接近,超过了DeepSeek-16B-MoE模型,与Mistral-7B、LLaMA2 34B等在同一个水平。而与另外两个模型不同的是,XVERSE-MoE-A4.2B 固定了2个专家,每次推理的时候必然激活,而剩余的6个专家则是根据推理输入进行路由选择,这样做是为了保证模型在基础通用能力上获得对应的领域性能。Mistral-7B×8-MoE 是一个稀疏的混合专家网络,是一个纯解码器模型。原创 2024-04-17 09:59:26 · 1459 阅读 · 0 评论 -
正值AI大模型繁忙期:Mistral再开源8×22B大模型,OpenAI发布「视觉版」GPT-4 Turbo,谷歌重磅发布Gemini 1.5 Pro,Meta确认开源大模型LLaMA 3
根据科技外媒The Information4月8日发布的报道,作为对标GPT-4的大模型,LLaMA 3的大规模版本参数量可能超过1400亿,而最大的LLaMA 2版本的参数量为700亿。同一天,OpenAI发布了 GPT-4 Turbo with Vision,这是最新的 GPT-4 Turbo 模型,具有视觉功能,可处理用户上传的照片、绘图和其他图像。4月10日,Mixtral-8×7B-MoE模型升级新版本,Mistral AI 开源了全新的Mixtral-8×22B-MoE大模型。原创 2024-04-17 09:44:09 · 905 阅读 · 0 评论 -
马斯克旗下 xAI 推出首款多模态模型Grok-1.5V
4月13日,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外,Grok现在可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。自2023年11月推出聊天机器人Grok以来,马斯克xAI一直在追赶OpenAI的步伐。在刚刚过去的1个月内,xAI相继宣布将Grok-1开源、推出128k长文本Grok-1.5、推出Grok-1.5V多模态大模型三项重要进展。原创 2024-04-17 09:37:32 · 733 阅读 · 0 评论 -
一份全面的大模型「幻觉」综述
,来自腾讯AI实验室和一些国内大学的研究团队,综述提出了LLM幻觉现象的分类法和评估基准,分析旨在减轻LLM幻觉的现有方法,并确定未来研究的潜在方向。将重点放在解决与数据相关的幻觉、与训练相关的幻觉和与推理相关的幻觉的方法上,每种方法都提供了量身定制的解决方案,以应对各自原因所固有的特定挑战。)从LLM幻觉的创新分类方法出发,深入探究了可能导致幻觉的因素,并对检测幻觉的方法和基准进行了概述。目前在LLM幻觉问题上已经有无数的研究,比如关于幻觉的检测、幻觉的评估基准分类、缓解幻觉的方法等。原创 2023-11-21 10:24:36 · 1547 阅读 · 0 评论