自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 资源 (1)
  • 收藏
  • 关注

原创 谷歌上新!最强开源模型Gemma 2,27B媲美LLaMA3 70B,挑战3140亿Grok-1

在总体评分上,Gemma 2 取到了开源模型最高分,而且用 27B 的参数「以小搏大」,超过了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量级的知名模型,而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。基于Transformer解码器架构,与 Gemma 1 不同之处在于,Gemma 2 每隔一层交替使用局部滑动窗口注意力和全局注意力机制,引入了分组查询注意力(GQA)以提高推理速度,相比 Gemma 1 也使用了更深的网络结构。

2024-07-09 11:30:56 533

原创 最新综述:多模态引导的基于文生图大模型的图像编辑算法

近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图(Text-to-Image,T2I)大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月。图2.综述框架旨在根据用户的特定需求编辑给定的合成图像或真实图像。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,得到了广泛研究。近期,大规模文生图(T2I)扩散模型驱动了技术的发展。这些模型根据文本提示生成图像,展示了惊人的生成能力,已成为的常用工具。

2024-07-09 10:20:50 695

原创 国产开源多模态大模型来了!浦语灵笔 InternLM-XComposer-2.5,超过GPT-4V

(InternLM-XComposer-2.5,简称IXC-2.5)是基于大语言模型研发的突破性的图文多模态大模型,仅使用7B LLM 后端就达到了 GPT-4V 级别的能力。使用24K交错的图像-文本上下文进行训练,通过ROPE外推可以无缝扩展到 96K 长的上下文。这种长上下文能力使在需要广泛输入和输出上下文的任务中表现出色。

2024-07-09 10:00:51 361

原创 智谱AI开源代码生成大模型 CodeGeeX4-ALL-9B

智谱AI 旗下的代码生成大模型 CodeGeeX 正式发布第四代开源版本:CodeGeeX4-ALL-9B,其是集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等能力于一体的代码大模型,是目前百亿(10B)参数以下性能最强、最全能的代码大模型。模型的核心功能 Demo 和使用教程已经在 GitHub 上开源,模型权重可在 HuggingFace、ModelScope、WiseModel 等大模型平台下载。

2024-07-09 09:16:03 842

原创 AI大神 Sebastian Raschka 发布新书《从零开始构建大语言模型》

书的地址:https://livebook.manning.com/book/build-a-large-language-model-from-scratch/这本书用清晰的文字、图表和示例解释每个阶段,从最初的设计和创建,到采用通用语料库进行预训练,一直到针对特定任务进行微调。配套的代码:https://github.com/rasbt/LLMs-from-scratch。,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。这本书的配套代码也已经在 GitHub 上开源了。

2024-06-25 10:12:11 221

原创 CVPR 2024 获奖名单揭晓:北大上交获「最佳论文提名」,上海科技大学夺得「最佳学生论文」

覆盖了丰富多样的研究领域,包括视觉与图形、单视图3D重建、视觉语言推理、基于医学和物理学的视觉、自主导航和自我中心视觉、3D技术、行动和动作识别、数据和评估、多视角与传感器融合、低样本/无监督/半监督学习、地位视觉和遥感、图像与视频合成以及多模态学习。(CVPR)在美国西雅图拉开帷幕。该奖项授予那些经得起时间检验的论文,2024年的 Longuet-Higgins 奖表彰了2014年在CVPR上发表的最具影响力的论文。学术界贡献了 39.4% 的论文,产业与学术界的合作贡献了 27.6% 的论文。

2024-06-24 13:20:49 1139 3

原创 ACM顶会SIGGRAPH 2024最佳论文出炉:英伟达两篇最佳论文,三支国内团队获荣誉提名,浙大周昆获时间检验奖

自1974年起,美国计算机协会计算机图形专业组(ACM SIGGRAPH)每年都会组织一次SIGGRAPH会议,是代表计算机图形学最高水平的全球国际性重量级盛会,规模大,规格高,影响力大,作品征集面广。论文 2:Femto-Photography: Capturing and Visualizing the Propagation of Light (2013)SIGGRAPH 2024 从数百篇投稿论文中评选出了 5 篇最佳论文,12 篇最佳论文荣誉提名以及 4 篇时间检验奖论文。

2024-06-21 09:34:06 917

原创 权威!IDC《中国大模型市场主流产品评估,2024》报告发布

6月12日,国际数据公司 IDC 发布《中国大模型市场主流产品评估,2024》,从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。结果显示,百度位于第一梯队,是唯一一家在7大维度上均为优势厂商的企业。图注:IDC 题目类型IDC 采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等,在审核委员会的监督下,最终得出各厂商的评估结果,供用户选型参考。

2024-06-18 15:38:09 694

原创 最新开源:英伟达Nemotron-4 340B,哔哩哔哩Index-1.9B,谷歌RecurrentGemma-9B...

当地时间6月14日,英伟达开源 Nemotron-4 340B 系列模型,包括三个模型:基础模型Nemotron-4-340B-Base,指令模型Nemotron-4-340B-Instruct,以及奖励模型Nemotron-4-340B-Reward,具有3400亿参数,在NVIDIA开放模型许可协议下开放访问,允许分发、修改和使用这些模型及其输出。bilibili开源轻量级模型Index-1.9B,具有19亿参数,在2.8T中英文为主的语料上预训练,该系列模型在多个评测基准上与同级别模型相媲美。

2024-06-18 15:20:49 1001

原创 大模型时代的计算机视觉!CVPR 2024 最火的研究主题是什么?

作为计算机视觉领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。4月5日,CVPR官方发文称,今年共提交了 11532 份有效论文,2719 篇论文被接收,录用率为23.6%。与去年相比,共有 9155 篇论文提交,2359 篇论文接收,录用率降低2.2%。CVPR、ICCV、ECCV被誉为计算机视觉和模式识别领域最顶级的学术会议。与另两个顶会不同,CVPR每年举办一次。CVPR 2024 将于6月17日-21日在美国西雅图召开。

2024-06-12 09:31:32 791

原创 AI 大佬 Andrej Karpathy 推荐:LLM 性能提升的秘密 —— FineWeb 数据集

在上述数据集的基础上,团队推出了 FineWeb-Edu,这是 FineWeb 的一个子集,专注于教育内容,表现优于所有公开可访问的网络数据集。FineWeb-Edu 子集基于最近出现的一种过滤 LLM 训练数据集的新方法:使用合成数据来开发识别教育内容的分类器。为此,FineWeb 团队就深入探讨了如何创建一个用于 LLM 预训练的大型高质量网络规模数据集,并讨论了大规模数据质量的处理和评估、FineWeb 配方(列出并解释了所有的设计选择)以及创建 FineWeb-Edu 子集的过程。

2024-06-04 17:24:21 850

原创 ChatTTS:对话式文本转语音模型,开源啦!突破开源语音天花板...

最近,一个名为 ChatTTS 文本转语音项目爆火出圈,短短三天时间,在 GitHub 上已经斩获了 9.2 k 的 Star 量。ChatTTS:对话式文本转语音模型项目地址:https://github.com/2noise/ChatTTS/tree/main体验地址:https://huggingface.co/2Noise/ChatTTSChatTTS 是专门为对话场景设计的文本到语音 TTS 模型。它支持中文和英语,包括中英混合模式。

2024-06-04 15:12:51 728 2

原创 OpenAI 宣布 GPT-4o 向所有人免费开放!

5月30日,OpenAI 宣布,ChatGPT正式向所有用户免费开放!ChatGPT 免费用户现在可以尝试更多 GPT-4o 的新功能,包括访问自定义 GPT 模型、数据分析和图表创建等。此前这些高级功能仅对付费用户开放,现在所有用户均可体验这些功能。不过,在使用次数上官方没有更新公告,预计还是会有一定次数限制。这对于免费用户来说可是大好事,但是对付费用户就有点扎心了,不禁质问:如果每个人都免费,为什么我要付费?其实,免费用户和付费用户还是存在一些区别的。

2024-06-04 14:15:05 468

原创 多语言大模型 Aya-23 开源!覆盖23种语言,性能刷新SOTA

近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了解决上述问题,最近,加拿大AI独角兽公司 Cohere 开源了两种参数规模的多语言指令微调模型Aya-23,包括 8B 和 35B 的版本,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。论文链接:https://arxiv.org/pdf/2405.15032。

2024-06-04 14:10:02 909

原创 全球最强端侧多模态模型!国产「面壁小钢炮」MiniCPM-Llama3-V 2.5 来了!

得益于 VisCPM 的跨语言泛化技术,在中英双语多模态能力的基础上,MiniCPM-Llama3-V 2.5 仅通过少量翻译的多模态数据的指令微调,高效泛化支持了德语、法语、西班牙语、意大利语、俄语等 30+ 种语言的多模态能力,几乎覆盖了所有一带一路的国家,意味着全球上百个国家的数十亿人口,都能与 MiniCPM-Llama3-V 2.5 丝滑交互。OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现!

2024-06-04 13:58:26 1852

原创 大佬 Ilya Sutskever 的神级论文清单,学完掌握当前AI 90%的知识!

在计算机视觉方面,Ilya 推荐了 2012 年 ImageNet 图像识别大赛中图灵奖得主 Geoffrey Hinton 组的论文《ImageNet Classification with Deep Convolutional Neural Networks》,这篇论文提出了 AlexNet,引入了全新的深层结构和 dropout 方法,颠覆了图像识别领域,甚至被认为开启了深度学习革命。Transformer 架构今天已经成为人工智能领域的主流基础架构,特别是它是生成式 AI 模型的核心架构。

2024-06-04 13:50:31 1424

原创 AI一周大事记 | 主动式AI应用崛起,国内大模型厂商继续发力,微软AI全家桶狂飙...

5 月 22 日,历时4个月打磨,百川智能发布最新一代基座大模型 Baichuan 4,并推出成立之后的首款AI助手“百小应”。相较于前代Baichuan 3,迭代后的Baichuan 4在各项能力上均有极大提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%,在国内权威大模型评测机构SuperCLUE的评测中,模型能力国内第一。

2024-06-04 13:42:27 721

原创 小模型时代来了?苹果开源OpenELM,公开代码、权重、数据集、训练全过程

4月24日,苹果开源了大语言模型(Open-source Efficient Language Models,即“开源高效语言模型”)。这与微软刚开源的Phi-3-mini类似,是一款专门针对手机等移动设备的模型。系列模型包含共4个不同参数版本,共包括,提供生成文本、代码、翻译、总结摘要等功能。基于较小的参数量,这些模型可在端侧设备上独立运行,而不必连接云端服务器。

2024-04-26 14:43:35 946

原创 微软发布「轻量级AI模型」Phi-3-mini,性能逼近GPT-3.5,可手机端运行

Phi-3-medium-14B 是新增的最大参数版本的Phi模型,参数140亿,架构与最小的Phi-3-mini-3.8B 相同,但是训练的epoch更多,训练的数据量和 Phi-3-small-7B 一样,4.9万亿tokens。当地时间 4 月 23 日,微软发布了 Phi-3 系列模型,最小参数38亿,最大规模拓展到了140亿,包含3个版本,分别是Phi-3-mini-3.8B、Phi-3-small-7B 和 Phi-3-medium-14B。该模型的体积很小,可以部署在手机上。

2024-04-26 14:32:47 1192

原创 一周SOTA:Meta 发布 Llama 3;Mistral AI 开源 Mixtral 8x22B;阿里开源代码模型CodeQwen1.5;面壁 MiniCPM 2.0 发布

Meta 正式开源Llama 3,发布8B、70B参数大小的基础模型和指令微调模型版本,是同等规模中的最佳模型。此外,Llama 3 最大的模型规模超过400B,虽然该模型正在训练中,但 Meta 表示未来将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口和更强大的性能,并将推出新的模型尺寸版本和公开 Llama 3 的研究论文。相比前两代,Llama 3 在训练成本、训练时间、模型架构等多个方面有了很大的升级。上下文长度:Llama系列的上下文长度一直在增长。

2024-04-25 09:23:09 1322

原创 最强开源大模型Llama 3发布!最大版本是4000亿参数规模!性能直逼GPT-4!

当地时间4月18日,Meta 官宣发布其最新开源大模型 Llama 3。目前,Llama 3 已经开放了 80亿 和 700亿 两个小参数版本,上下文窗口为8K。未来还有4000亿参数版本,支持多模态、超长上下文、多国语言!

2024-04-19 18:11:31 1429

原创 一周最新开源:Stability、Mistral再开源,3个MoE大模型DBRX、Jamba、Qwen1.5-MoE-A2.7B接连开源

上周,Stability AI 开源 Stable Code Instruct-3B,Mistral AI 宣布 Mistral 7B v0.2 Base Model,Databricks 开源了其 MoE 模型 DBRX,通义千问团队发布 MoE 模型:Qwen1.5-MoE-A2.7B,AI21 Labs 宣布开源 MoE 大模型 Jamba。

2024-04-17 10:26:29 687

原创 细数AI程序员 Devin、SWE-agent、通义灵码、Devika...,“码农”要失业了吗?

3月12日,美国AI初创公司Cognition AI在X平台发布一条视频,宣布了首位完全自主的AI程序员 Devin 的诞生。第一位接近人类的 AI 程序员,究竟强在哪里?不同于我们在前两年看到的 GitHub Copilot 等 AI 编程助手,Devin 并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。Devin 不仅能自主学习新技术,自己改Bug,甚至还能训练和微调自己的AI模型,表现已然远超GPT-4等“顶流选手”。

2024-04-17 10:14:28 823

原创 2024最火热的大模型技术方向:MoE,国产MoE大模型大爆发!

根据官方公布的数据, XVERSE-MoE-A4.2B 模型的评测结果与阿里的Qwen1.5-MoE-A2.7B接近,超过了DeepSeek-16B-MoE模型,与Mistral-7B、LLaMA2 34B等在同一个水平。而与另外两个模型不同的是,XVERSE-MoE-A4.2B 固定了2个专家,每次推理的时候必然激活,而剩余的6个专家则是根据推理输入进行路由选择,这样做是为了保证模型在基础通用能力上获得对应的领域性能。Mistral-7B×8-MoE 是一个稀疏的混合专家网络,是一个纯解码器模型。

2024-04-17 09:59:26 1504

原创 正值AI大模型繁忙期:Mistral再开源8×22B大模型,OpenAI发布「视觉版」GPT-4 Turbo,谷歌重磅发布Gemini 1.5 Pro,Meta确认开源大模型LLaMA 3

根据科技外媒The Information4月8日发布的报道,作为对标GPT-4的大模型,LLaMA 3的大规模版本参数量可能超过1400亿,而最大的LLaMA 2版本的参数量为700亿。同一天,OpenAI发布了 GPT-4 Turbo with Vision,这是最新的 GPT-4 Turbo 模型,具有视觉功能,可处理用户上传的照片、绘图和其他图像。4月10日,Mixtral-8×7B-MoE模型升级新版本,Mistral AI 开源了全新的Mixtral-8×22B-MoE大模型。

2024-04-17 09:44:09 915

原创 马斯克旗下 xAI 推出首款多模态模型Grok-1.5V

4月13日,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外,Grok现在可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。自2023年11月推出聊天机器人Grok以来,马斯克xAI一直在追赶OpenAI的步伐。在刚刚过去的1个月内,xAI相继宣布将Grok-1开源、推出128k长文本Grok-1.5、推出Grok-1.5V多模态大模型三项重要进展。

2024-04-17 09:37:32 736

原创 生成式 AI 原生开发

12 月 28 日(周四)14:00-17:40,亚马逊云科技资深人工智能产品市场经理宋洪涛作为专题出品人,将与亚马逊云科技人工智能技术专家李元博、亚马逊云科技人工智能技术专家郑昊、亚马逊云科技资深培训讲师张文举博士以及亚马逊云科技解决方案架构师肖元君,带来“加速生成式 AI 落地的最佳实践”的专题直播,深度探讨如何借助亚马逊云科技的技术,打通生成式 AI 应用落地的“最后一公里”,加速项目从 PoC 到 Production 的转化。认认真真学,开开心心玩,下一站 GenAI @ 喊你上车!

2023-12-28 16:44:43 497

原创 一份全面的大模型「幻觉」综述

,来自腾讯AI实验室和一些国内大学的研究团队,综述提出了LLM幻觉现象的分类法和评估基准,分析旨在减轻LLM幻觉的现有方法,并确定未来研究的潜在方向。将重点放在解决与数据相关的幻觉、与训练相关的幻觉和与推理相关的幻觉的方法上,每种方法都提供了量身定制的解决方案,以应对各自原因所固有的特定挑战。)从LLM幻觉的创新分类方法出发,深入探究了可能导致幻觉的因素,并对检测幻觉的方法和基准进行了概述。目前在LLM幻觉问题上已经有无数的研究,比如关于幻觉的检测、幻觉的评估基准分类、缓解幻觉的方法等。

2023-11-21 10:24:36 1590

原创 2023 年诺贝尔奖花落谁家?

10月3日,瑞典皇家科学院宣布,将「2023年诺贝尔物理学奖」授予美国俄亥俄州立大学名誉教授皮埃尔·阿戈斯蒂尼(Pierre Agostini)、德国马克斯·普朗克量子光学研究所教授费伦茨·克劳斯(Ferenc Krausz)和瑞典隆德大学教授安妮·呂利耶(Anne L’Huillier),三人平分奖金,以表彰他们在“产生阿秒光脉冲以研究物质中电子动力学的实验方法”方面所做出的贡献。此后有《有人将至》、《秋之梦》、《醒来》、《奥拉夫的梦》、《疲倦》、《晨与夜》、《船屋》、《拾瓶子的人》、《铅与水》等作品。

2023-10-19 14:40:23 239

原创 2023人工智能全景报告《State of AI Report》出炉!AI未来一年的10大预测:GPT-4仍是全球最强,GenAI 大爆发,...

然而,Meta 高举开源AI的旗帜,先后发布开源大模型 Llama、Llama2,选择向公众开放模型权重等技术细节,掀起了一场开放竞争的大语言模型竞赛,并形成了开源与专有大模型之间的抗衡。OpenAI 公布了的 GPT-4 技术报告,可参考的内容非常有限,几乎没有发布什么有价值的信息,Google的 PaLM 2 技术报告亦是如此,而 Anthropic 直接选择不发布 Claude 和 Claude 2 的技术报告。虽然专有闭源模型最受关注,但人们对开源且允许商业用途的 LLM 的兴趣在增加。

2023-10-19 13:01:04 837

原创 盘点2023年Q3的开源模型,这些值得推荐!

文章目录盘点2023年Q3「值得推荐」的开源模型!基座模型LLaMA 2Baichuan 2ChatGLM2-6BQwen-14BInternLM-20BTigerbot-13BTigerbot-70B多模态模型LLaVA 1.5VisualGLM-6BVisCPMNexT-GPTMiniGPT-5Qwen-VLAgent开发AgentsAgentVerseAutoAgentsMetaGPTAutoGenAutoGPTAgentGPT微调框架OpenLLMLLaMA-Efficient-TuningXTun

2023-10-19 09:34:38 1670

原创 再炸AI绘图圈:2秒文成图,最快的移动端Stable Diffusion模型;Stability AI推出Uncrop Clipdrop更新一键扩图

(2)推理步数上的优化:众所周知,扩散模型在推理时是一个迭代的去噪过程,迭代的步数越多,生成图片的质量越高,但时间代价也随着迭代步数线性增加。起初,AI 作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?比如横图变竖图,竖图变横图等。(1)UNet 结构上的优化:通过分析原有 UNet 的速度瓶颈,本文提出一套 UNet 结构自动评估、进化流程,得到了更为高效的 UNet 结构(称为 Efficient UNet)。

2023-07-06 12:19:10 947

原创 UC伯克利LLM排行榜(Chatbot Arena Leaderboard)再更新!GPT-4稳居第一,Vicuna-33B登顶开源模型第一

这表明开源模型仍有很大的改进空间。通过在聊天机器人竞技场运行2个月收集的一部分用户数据的分析,团队确定了用户提示的8个主要类别: 写作、角色扮演、提取、推理、数学、编码、知识一(STEM)和知识二(人文社科)。图注:用户与LLaMA-13B和Vicuna-13B之间的多轮对话,开始是MMLU基准中的问题和后续指令,然后将GPT-4与上下文一起呈现,比较谁的答案更好。另外,团队还发布了更新的Vicuna-v1.3系列模型,参数量为70亿、130亿和330亿,在一个扩展的用户共享的对话集上训练,且权重已公开。

2023-07-06 12:09:51 2061

原创 腾讯首次发布行业大模型,大模型进入落地战

在峰会上,腾讯云首次公布了「腾讯云行业大模型」研究进展,其依托腾讯云TI平台打造行业大模型精选商店,为客户提供 MaaS(Model-as-a-Service) 一站式服务,助力客户构建专属大模型及智能应用。据了解,腾讯云已经联合行业头部企业,为金融、政务、文旅、传媒、教育等 10 大行业输出了 50 多个解决方案,凭借其一整套 MaaS 工具链帮助企业高效率、低成本地创建和部署 AI 应用。,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

2023-07-06 11:27:48 219

原创 斯坦福发布最新LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一

根据 faldore 的介绍,他使用了 WizardLM 团队提供的原始训练脚本和未经过滤的数据集 ,在四块 A100 80GB 的显卡上训练了 36 小时和 60 小时,分别得到了 UNCENSORED WizardLM-7B 和 UNCENSORED WizardLM-13B 模型。之前,HuggingFace发布了个开源LLM的排行榜,主要是跟踪、排名和评估最新的大语言模型和聊天机器人,让所有人方便的观察到开源社区的进展和评估这些模型。但准确说,对于敏感问题的输出,用户具有所有权和控制权。

2023-07-06 11:22:25 1369

原创 AI最新开源:LMSYS Org开源LongChat、法律大语言模型ChatLaw、中文医疗对话模型扁鹊

目前支持长上下文的开源大模型已经有支持65K的 MPT-7B-storyteller 和32K的ChatGLM2-6B,闭源大模型比如 Claude-100K and GPT-4-32K,但LMSYS Org的研究人员还是选择通过测试来印证它们是「李鬼」还是「李逵」。6月29日,来自LMSYS Org的研究人员发布了两个支持16k token上下文长度的开源大模型LongChat-7B和LongChat-13B,并测试了几个支持长上下文能力的几个大模型的实际表现。

2023-07-06 11:03:07 3919

原创 清华ChatGLM2-6B开源!第二代性能大幅提升,推理提速42%,最高支持32K上下文

推理性能提升了42%:基于 Multi-Query Attention 技术,ChatGLM2-6B有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。在主要评估LLM模型中文能力的 C-Eval 榜单中,截至6月25日 ChatGLM2 模型以 71.1 的分数位居榜首,超越GPT-4,而最新版本 ChatGLM2-6B 模型以 51.7 的分数位居第7,是榜单上排名最高的开源模型。

2023-07-06 10:53:49 1021

原创 杠上了,AI绘画圈激烈开战,Midjourney 和 Stable Diffusion 双双更新!

Midjourney V5版本,5月迎来了一个小版本更新:V5.1就很让人惊喜了。和之前的版本相比,V5.1更具主观性,短提示也容易多,还加了一个“无主观性”模式(RAW Mode)。相比V5.0,V5.1表现出更高的连贯性、对文本提示更加精确、边框或文本残留物更少、改善了锐度。6月23日,Midjourney 推出了最新 Midjourney 5.2 版本,此次主要的更新的引入了“Zoom out”功能。

2023-07-06 10:44:44 286

原创 OpenAI网站突破10亿月活,收割「大模型代码生成排行榜」第一第二名!

如下表所示,GPT-4 的表现优于其他 LLMs,包括 text-davincit-003 (ChatGPT的基础模型) 和其他专门在code、code-davinci-002 和 CODEGEN-16B [NPH+22]上训练的模型。在GPT-4的技术报告《GPT-4 Technical Report》一文中,GPT-4 在 HumanEval 上的pass@1准确率(衡量了模型在第一次尝试中是否产生了正确的解决方案)是67%,而Plappert的测试则达到了73%。

2023-07-06 10:37:52 234

原创 ChatGPT的平替来了?一文总结 ChatGPT 的开源平替,你值得拥有

2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。再加上前段时间 GPT-4 的发布,ChatGPT 也有了更强大的推理和多模态能力,OpenAI 几乎不可能将其开源。然而,表现欠佳的「其他」阵营却一直在做开源方面的努力。本文总结了目前业界开源且适合中文的类ChatGPT项目。

2023-03-31 10:49:46 21711 4

decision_tree_classifier_viz

利用iris数据集构建一个决策树,并可视化决策树。在anaconda4中可以正常使用,python3.6环境下, 安装好pydotplus包, 以及计算机安装graphviz。

2019-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除