AI大模型前沿研究-CSDN博客

原创『Transformer系列』Transformer系列技术博文汇总！

Transformer系列技术博文汇总！

2024-06-04 16:22:04 627

原创『NLP学习笔记』Triton推理服务器加速模型推理

NVIDIA Triton(英伟达官网)推理服务器在生产中提供快速且可扩展的 AI。开源推理服务软件 Triton Inference Server 通过使团队能够从任何框架 (TensorFlow、NVIDIA TensorRT、PyTorch、ONNX、XGBoost、Python、自定义等) 在任何基于 GPU 或 CPU 的基础设施上部署经过训练的 AI 模型，从而简化 AI 推理(云、数据中心或边缘)。

2022-03-22 00:21:16 3903 1

原创『矩阵论笔记』上篇：张量CP分解的详细推导以及Python实现

张量CP分解的详细数学推导以及Python实现(上集)

2021-07-11 22:35:48 4127 9

原创〖TensorFlow2.0笔记23〗(更新版)ResNet-18实现Cifar10(94%)和Cifar100(75%)分类

ResNet-18实现CIFAR-10(94%)和CIFAR-100(75%)分类！

2020-08-20 10:09:59 7048 7

原创『论文笔记』CBAM:Convolutional Block Attention Module(注意力机制)+TensorFlow2.0复现

本文提出了卷积块注意模块(CBAM)，这是一个简单而有效的前馈卷积神经网络注意模块。在给定中间特征图的情况下，我们的模块按照通道和空间两个独立的维度依次推断注意图，然后将注意图乘入输入特征图进行自适应特征细化。因为CBAM是一个轻量级的通用模块，它可以无缝地集成到任何CNN架构中，开销可以忽略不计，并且可以与基本CNNs一起进行端到端的培训。我们通过在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上的大量实验来验证我们的CBAM。

2019-12-30 15:07:16 14188 27

原创『自己的工作3』梯度下降实现SVM多分类+最详细的数学推导+Python实战(鸢尾花数据集)

支持向量机(Support Vector Machine, SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM的目标是寻找一个最优化超平面在空间中分割两类数据，这个最优化超平面需要满足的条件是：离其最近的点到其的距离最大化，这些点被称为支持向量。SVM是用来解决二分类问题的有监督学习算法，同时它可以通过one-vs-all策略应用到多分类问题中。本文主要介绍如何使用梯度下降法对SVM多分类问题进行优化。

2019-11-28 19:53:45 5730 8

原创〖TensorFlow2.0笔记23〗TensorFlow2.0学习笔记总结!

Tensorflow2.0全套课程学习笔记！

2019-11-10 16:38:31 16390 21

原创『矩阵论笔记』线性判别分析(LDA)最全解读+python实战二分类代码+补充：矩阵求导可以参考

线性判别分析(Linear Discriminant Analysis 简称LDA)是一种经典的线性学习方法，在二分类问题上因为最早由【Fisher，1936年】提出，所以也称为“Fisher 判别分析！”Fisher（费歇）判别思想是投影，使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样本点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。

2019-05-27 20:59:10 6134 5

原创『ML笔记』Python凸优化求解cvxopt包+实战SVM+补充np.dot, np.matmul, np.multiply!

Python凸优化求解cvxopt包+实战SVM+补充np.dot, np.matmul, np.multiply!

2019-03-16 15:47:01 4567 12

原创『矩阵论笔记』解读奇异值分解(SVD)+Python实战

奇异值分解（Singular Value Decomposition）是线性代数中一种重要的矩阵分解(Matrix Decomposition)，奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。这篇文章主要说下奇异值分解，这个方法在机器学习的一些算法里占有重要地位。

2019-03-14 21:44:04 5553 6

原创『大模型笔记』从 LangChain 到 Agentic 系统：Andrew Ng 谈 AI 应用趋势与实践洞察

吴恩达分享了为什么大多数成功的 AI 智能体都是从简单的线性工作流开始的，而不是从复杂的自主系统起步的，并介绍了目前加速智能体开发的“乐高积木”式方法。在与 Harrison Chase 的炉边谈话中，吴恩达阐述了企业在将现有流程拆解为一系列顺序微任务时所面临的挑战，并解释了为什么他认为线性工作流比复杂的自主系统蕴含着更多机遇。他还揭示了 AI 创业公司成功的两个关键预测因素，并强调在 AI 时代每个人都应该学习编程。

2025-06-12 00:47:07 9

原创『大模型笔记』Langchain作者Harrison Chase专访：环境智能体与全新智能体收件箱

LangChain 的 CEO Harrison Chase 提出了“环境智能体”（Ambient Agents）的概念，这是一种持续在后台运行的 AI 系统，它们不是依赖人类的直接指令，而是根据发生的事件主动做出响应。本文将带你了解环境智能体与传统聊天机器人有何不同、为什么人类监督仍然至关重要，以及这种新方式如何大幅提升我们利用 AI 的能力。

2025-05-13 23:01:55 167

原创『Python学习笔记』ubuntu解决matplotlit中文乱码的问题！

在Ubuntu系统中，解决Matplotlib中文乱码问题可以通过以下步骤实现

2025-05-09 12:27:04 383

原创『大模型笔记』真正的LLM智能体即将到来。它们将被训练！

真正的LLM智能体即将到来。它们将被训练！

2025-03-14 13:59:11 260

原创『大模型笔记』什么是MCP？将AI智能体与数据库和API集成

主题内容概述MCP 概述 (Model Context Protocol)由 Anthropic（Claude）主导的一个开放协议，旨在让 AI 模型与不同 API、数据源无缝对接。它填补了功能碎片化、缺少统一标准的空白，为复杂、多步骤任务提供更高效的上下文处理能力。一种通用标准协议，旨在整合 AI 能力、服务与上下文，替代零散的 Agent 方案。通过 MCP，可以快速接入各种服务并实现多轮对话、复杂任务的执行，不必针对每个服务单独开发集成逻辑，从而提高可维护性和可扩展性。

2025-03-14 13:54:16 1245

原创『大模型笔记』超级对齐（Super Alignment）：确保人工超智能遵循人类价值观的挑战与对策

超级对齐（Super Alignment）：确保人工超智能遵循人类价值观的挑战与对策。

2025-03-12 09:59:03 198

原创『大模型笔记』GPT-4.5发布，AGI真的要来了吗

GPT-4.5 是 OpenAI 迄今为止最大、最具知识性的模型。目前以研究预览形式发布，面向 ChatGPT Pro 用户和 API 开发者。未来一周内将扩展到 Plus 用户、教育（EDU）用户和团队（Team）用户。OpenAI 发布了其最新模型 GPT-4.5，并称其为迄今为止最大、最具知识性的 AI 模型。目前，该模型以研究预览形式提供给 ChatGPT Pro 用户和 API 开发者，并计划在未来一周内推广至 Plus 用户、教育（EDU）用户和团队（Team）用户。

2025-02-28 13:08:36 169

原创『大模型笔记』详细对比GraphRAG与传统RAG！

详细对比GraphRAG与传统RAG！

2025-02-21 16:07:27 188

原创『Linux笔记』进程间通信（IPC）详细介绍！

进程间通信（Inter-Process Communication, IPC）是操作系统提供的一种机制，旨在解决多个进程之间如何交换数据和进行协作的问题。它在并发程序设计中至关重要，尤其是在多核处理器上，可以有效提升资源利用率，减少处理器等待时间，提供更高效的执行方式。IPC 的核心目标是允许进程在不同的执行环境中（比如不同的内存空间）共享数据和状态信息。进程间通信（IPC）是多进程系统中不可或缺的一部分，常见的机制包括共享内存、消息队列、信号量、管道和套接字。

2025-02-19 14:08:52 779

原创『大模型笔记』DeepSeek-R1-Distill-Qwen-14B vLLM 部署

DeepSeek-R1-Distill-Qwen-14B vLLM 部署。

2025-02-19 10:07:57 218

原创『大模型笔记』马斯克的Grok3让整个AI行业震惊-地表最强！

推理能力是AI发展的下一步关键，Grok3在这一方面取得了显著进展。推理模型能够通过深思熟虑的过程来解决问题，这种能力使得模型能够处理更复杂和具有挑战性的问题。与传统的瞬时回应模型不同，推理模型可以通过延长思考时间，给出更精准的答案。Grok3的推理版本也在最新的测试中超越了其他竞品，证明了其在复杂问题解决中的强大能力。Grok3进入了代理时代，推出了名为DeepSearch的新产品。DeepSearch不仅是下一代搜索引擎，更是一个帮助用户理解复杂信息、节省时间的工具。

2025-02-18 15:55:10 104

原创『大模型笔记』Jason Wei: 大语言模型的扩展范式！

Jason Wei: 大语言模型的扩展范式！

2025-02-17 15:18:22 424

原创『大模型笔记』Ollama环境变量大全！

Ollama环境变量大全！

2025-02-14 17:26:34 1204

原创『大模型笔记』怎样让Ollama启动的大模型常驻内存(显存)？

怎样让Ollama启动的大模型常驻内存(显存)？

2025-02-14 16:19:04 2210

原创『大模型笔记』强烈推荐OpenAI官方：推理模型最佳实践！

大模型笔记』强烈推荐OpenAI官方：推理模型最佳实践！

2025-02-14 14:50:12 328

原创『大模型笔记』DeepSeek R1：掀起科技界风暴的全新大模型

DeepSeq R1：掀起科技界风暴的全新大模型

2025-02-06 09:55:07 531

原创『大模型笔记』AI真的能思考吗？揭穿AI的局限性！

AI真的能思考吗？揭穿AI的局限性！

2025-01-21 10:19:35 123

原创『大模型笔记』评估大型语言模型的指标：ELO评分，BLEU，困惑度和交叉熵介绍以及举例解释

大模型的ELO得分如何理解以及示例解析

2024-12-26 09:38:14 584

原创『大模型笔记』2025年，哪些行业会被 AI “平替”？程序员何去何从？

2025 会被 AI“平替”的行业？程序员真的会被取代吗？

2024-12-24 14:53:54 784

原创『Linux学习笔记』FRPC 详细介绍及配置解析！

FRPC 详细介绍及配置解析

2024-12-23 14:02:09 3305

原创『大模型笔记』ComfyUI工作流对应的Json文件字段解析！

ComfyUI工作流对应的Json文件字段解析！

2024-12-10 14:36:34 838

原创『大模型笔记』OpenAI 十二天活动第1天：o1和o1 pro

OpenAI 十二天活动第1天：o1和o1 pro。

2024-12-06 10:24:33 306

原创『Linux学习笔记』linux系统有哪些方法计算文件的md5！

md5sum是最常见的计算MD5值的命令，适用于大多数Linux系统。openssl是功能全面的工具，支持更多的哈希算法，并且可以用于SSL/TLS加密等任务。shasum主要用于SHA系列算法，但也支持计算MD5。根据实际需求，可以选择适合的工具来计算文件的MD5值。

2024-11-28 14:38:36 2372

原创『Linux学习笔记』zip解压出现error: invalid zip file with overlapped components (possible zip bomb)！

zip解压出现error: invalid zip file with overlapped components (possible zip bomb)！

2024-11-27 10:00:00 2776

原创『大模型笔记』IBM技术团队：AI智能体与AI助手功能对比！

大模型笔记』IBM技术团队：AI智能体与AI助手功能对比！

2024-11-22 15:38:03 375

原创『大模型笔记』AI自动化编程工具汇总[持续更新ING]！

大模型笔记』AI自动化编程工具汇总！

2024-11-18 11:19:53 884

原创『大模型笔记』理解和估计训练LLM的GPU内存需求(重要)！

理解和估计训练LLM的GPU内存需求(重要)！

2024-11-13 14:52:20 146

原创『大模型笔记』IBM技术团队：什么是智能体型RAG！

检索增强生成（RAG）是一种结合检索和生成能力的技术，通过从向量数据库检索相关信息作为上下文，为大语言模型提供支持，以生成更高质量的响应。这一方法通过将查询内容与数据库中的信息匹配，从而确保模型的生成内容具体且准确。向量数据库在RAG流程中承担了关键角色，它以查询为依据返回最相关的信息，并将该信息整合进提示，从而提升响应的可靠性。

2024-11-07 14:31:04 236

原创『Linux学习笔记』如何在 Ubuntu 22.04 上安装和配置 VNC

虚拟网络计算，或称 VNC，是一种连接系统，允许您使用键盘和鼠标与远程服务器上的图形桌面环境进行交互。它使得对于尚未熟悉命令行的用户来说，管理远程服务器上的文件、软件和设置变得更加容易。在本指南中，您将使用TightVNC在 Ubuntu 22.04 服务器上设置 VNC 服务器，并通过 SSH 隧道安全地连接到它。然后，您将使用本地计算机上的 VNC 客户端程序通过图形桌面环境与服务器进行交互。

2024-10-30 19:09:25 698

原创『大模型笔记』如何在无网路的情况下在Linux主机上安装NVIDIA Container Toolkit(nvidia-docker2)

如何在无网路的情况下在Linux主机上安装NVIDIA Container Toolkit(nvidia-docker2)

2024-10-29 17:17:59 795 1

从零开始构建AI智能体！

本网页主要介绍了如何从零开始构建一个基于大语言模型的 AI 智能体，包括智能体的工作原理、Python 代码实现以及如何使用工具调度来影响其环境。

2024-08-15

WizardLM：使大型预训练语言模型能够遵循复杂的指令

2024-08-14

张量分解_张量CP分解_张量Tucker分解_详细介绍！

张量内容的详细介绍，张量CP分解以及Tucker分解内容的详细讲解！建议结合我的博客来学习：https://blog.csdn.net/abc13526222160/article/details/118255259?spm=1001.2014.3001.5502

2021-07-13

2024大模型AI工程师必备技能

五个级别的大语言模型 (LLM)应用。可以将此视为一个框架，帮助你决定在哪些地方可以使用LLM。关于LLM能做什么、不能做什么，有很多不同的误解。那么今天你在哪里使用LLM呢？因此，我决定整理这份材料，带你通过一个基于你使用LLM的扩展或深度的思维框架。你可以决定将LLM适用于哪个层面。首先我们来看一下我整理出的不同级别的LLM，然后我们会稍微扩展一下这个内容。我准备了两个不同的文档带你了解这些内容。这将帮助你了解今天LLM的使用情况以及你如何在自己的应用中使用LLM。

2024-07-03

5种人工智能公司（大模型领域）

讨论了很多人对AI公司存在的误解。许多人认为建立AI公司需要自行构建AI模型，但实际上并非如此。这段视频的目的是澄清这些误解，并解释如何在不同类型的AI公司中找到合适的角色。视频强调，成为一家成功的AI公司并不总是需要自己构建模型，而是要找到适合自身资源和能力的切入点。FACES框架是一个用于分解不同类型AI公司的工具。FACES代表五种不同的公司类型：基础模型创新者（Foundational Model Innovators）、自适应微调者（Adaptive Fine-Tuners）、便捷的API提供者（Convenient API Providers）、基础设施建设者（Essential Infrastructure Builders）、独立和集成的AI产品（Standalone and Integrated AI Products）。这个框架帮助理解各类AI公司在生态系统中的角色和重要性。

2024-06-21

Fast LLM Serving with vLLM and PagedAttention

LLMs 有望彻底改变我们在各行各业中使用 AI 的方式。然而，实际应用这些模型具有挑战性，即使在昂贵的硬件上也可能非常缓慢。为了解决这个问题，我们正在开发一个开源库 vLLM，用于快速 LLM 推理和服务。vLLM 利用我们新的注意力算法 PagedAttention，有效地管理注意力键值。装备了 PagedAttention 的 vLLM 实现了比 HuggingFace Transformers 高达 24 倍的吞吐量，而无需任何模型架构的改变。vLLM 由加州大学伯克利分校开发，并在过去三个月中部署于 Chatbot Arena 和 Vicuna Demo。在本次演讲中，我们将深入讨论 vLLM 的动机、特性和实现，并介绍我们的未来计划。

2024-05-27

Openai CEO奥特曼和Brad访谈(2024年4月17日)，哪些公司将被 OpenAI 淘汰？

Sam Altman 是 OpenAI 的 CEO，这家公司致力于使通用人工智能（AGI）惠及全人类。OpenAI 是历史上扩张速度最快的公司之一，估值高达 900 亿美元，收入超过 20 亿美元。在 OpenAI 之前，Sam 曾担任 Y Combinator 的总裁和 CEO，并在 Airbnb、Stripe、Reddit、Pinterest、Asana 等公司做过天使投资。在今天的节目中，Sam Altman 和 Brad Lightcap 将讨论：合作伙伴关系：科技界最强大的二人组： 6 年前，25 人拒绝了 OpenAI CFO 的职位，是什么让 Brad 在 Sam 之前加入了 OpenAI？他看到了什么别人没看到的？ Brad 认为 Sam 最大的独特优势是什么，这一点世界还未知晓？Sam 又认为 Brad 的最大优势是什么？ Brad 和 Sam 如何共同决策？他们是如何平衡直接处理和委派的？最近他们有什么意见不合？又是如何解决的？ OpenAI 接下来的 12 个月：瓶颈、计算力和商品化：接下来的 12 个月，OpenAI 面临的主要瓶颈是什么？

2024-04-19

【东方财富证券】从硬件、算法、应用角度看ChatGPT浪潮引领AIGC革新投资机遇

ChatGPT 对 AIGC 产业生态的硬件层、算法层和应用层带来革新。ChatGPT 全面激活深度学习和人工智能需求，根据 Precedence Research 预测 AI 市场规模有望 10 年 10 倍以上。GPT-3 每训练一次需要使用由 1 万个 V100GPU 训练 13 天。（GPT-3 披露单次训练需要3.114x10^23FLOPS 花费 460 万美元，等于单 V100GPU 运行 355 年）生成式 AI 模型在硬件层依赖高性能芯片和云计算数据中心提供算力支持。CPU 领域如海光信息、海思半导体、龙芯中科、上海兆芯；GPU 领域例如景嘉微，海光信息等。FPGA 领域例如安路科技、复旦微电、紫光国微等；ASIC 芯片如寒武纪、澜起科技等；光模块领域如德科立、天孚通信、中际旭创；Chiplet 领域如兴森科技、长川科技、方邦股份等。云计算成为降低 AIGC 硬件成本突破口，设备商例如紫光股份、联想、中兴通讯、锐捷网络等：算力散热相关英维克、高澜股份：云计算如阿里巴巴、腾讯、奥飞数据、数据港等。生成式 AI 模型在硬件层依赖高性能芯片和云计算数据中心提供算力支持。

2024-03-20

【钛媒体国际智库】中美AI大模型应用比较研究报告

康波周期是描述宏观经济增长与技术革命间内在关系的重要模型,第一次工业革命以来,人类已经完整经历了纺织和蒸汽机技术、钢铁和铁路、电气和重化工业、汽车和电子计算机四轮康波周期,目前处于信息技术周期的萧条阶段,AI驱动的第六轮康波周期一触即发。以ChatGPT为代表的Al大模型的诞生,意味着强人工智能的时代即将到来,AIGC正在成为引发生产力变革的引擎,为了抓住第六轮康波周期的机遇,更是在未来的科技竞争中占领先机,中美两国在大模型的布局上不遗余力,两国的竞争不仅仅体现在大型科技企业之间,更是在应用领域也展开了对决。

2024-03-20

【中国信通院2023】人工智能大模型赋能医疗健康产业白皮书

随着全球新一轮科技革命和产业变革深入发展,以人工智能(Artificial Intelligence,AI)为代表的数字技术加速演进,成为经济增长的核心驱动力。近年来,人工智能大规模预训练模型(以下简南称"大模型")在知识、数据、算法和算力等关键要素的共同推动下,呈现见爆发式增长,从自然语言处理逐步扩展、迁移到计算机视觉、多模态、科学计算等领域,增强了人工智能的泛化性、通用性,开启了人工上智能发展新范式。人工智能大模型有望成为未来新型基础设施,赋能干行百业新一轮增长,落地应用和价值实现成为大模型下一步发展方向。生命科学和医疗健康是大模型等AI技术最重要的应用领域之一,大模型可赋能生命科学研究和新药研发,促进医疗器械创新,提升医疗智能化水平。将大模型应用于医疗健康领域,推动医疗健康行业数字化转型升级,对满足人民群众健康需求和实现经济社会经录色、智能、可持续发展具有重要意义。

2024-03-20

(Language Modeling)Introduction to N-grams

2024-03-20

【SuperCLUE团队】中文大模型基准测评2023年度报告

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。

2024-03-20

【中国信通院2022】人工智能AI框架发展白皮书

AI 助力当前经济社会步入智能经济时代。世界正在进入以新一代信息技术驱动发展的重塑时期，人工智能（AI，Artificial Intelligence）作为其中重要的使能技术，对激活实体经济具有溢出带动性很强的 “头雁效应”，对构筑国家科技影响力具有举足轻重的意义。人工智能成为了全球各国新的科技热点，人工智能基础设施建设也成为重要抓手与着力点。未来十年是全球发展数字经济、迈入智能经济社会的黄金发展期，着力发展人工智能基础设施，将为我国人工智能产业发展壮大、数字经济蓬勃发展提供强大牵引力。 AI 框架是智能经济时代的操作系统。作为人工智能开发环节中的基础工具，AI 框架承担着 AI 技术生态中操作系统的角色，是 AI 学术创新与产业商业化的重要载体，助力人工智能由理论走入实践，快速进入了场景化应用时代，也是发展人工智能所必需的基础设施之一。随着重要性的不断凸显，AI 框架已经成为了人工智能产业创新的焦点之一，引起了学术界、产业界的重视。在此背景下，白皮书致力于厘清 AI 框架的概念内涵、演进历程、技术体系与作用意义，通过梳理总结当前 AI 框架发展现状，研判 AI 框架技术

2024-03-20

剑桥大学：2023State of AI Report

人工智能（AI）是一个多学科的科学和工程领域，其目标是创造智能机器。我们相信，在日益数字化、数据驱动的世界中，人工智能将成为技术进步的力量倍增器。这是因为今天我们周围的一切，从文化到消费品，都是智能的产物。《人工智能现状报告》现已进入第六个年头。将此报告视为我们所见过的最有趣的事情的汇编，其目标是引发有关人工智能现状及其对未来影响的知情对话。我们在报告中考虑了以下关键维度：研究：技术突破及其能力。行业：人工智能的商业应用领域及其业务影响。政治：人工智能的监管、其经济影响以及不断演变的人工智能地缘政治。安全：识别并减轻未来高性能人工智能系统可能给我们带来的灾难性风险。预测：我们相信未来 12 个月会发生什么，以及 2022 年绩效评估，以保持我们的诚实。

2024-03-20

【中国信息通信研究】2023大模型落地应用案例集

本项目通过搭建高性能 GPU 计算集群、训练通用大语言模型、训练垂类大语言模型、搭建大语言模型微调平台、搭建大语言模型应用开放平台等核心模块，旨在打造大语言模型服务和应用平台，为大语言模型技术的研究和应用提供一个开放、可扩展、可协作的环境。这个平台除了通用大语言模型外，还提供大量共享的数据集、算法库、模型微调工具等资源供开发者使用，同时大语言模型应用开放平台提供一整套完整的大语言模型生态应用工具链，从而加速大语言模型的训练以及大语言模型生态应用的开发和使用过程。

2024-03-20

清华⼤学计算机系知识⼯程实验室（KEG）唐杰《从千亿模型到ChatGPT的⼀点思考》

训练成本⾼昂：训练 1750 亿参数的 GPT-3 使⽤了上万块 V100，机时费⽤是 460万美元，总成本据悉达到 1200 万美元⼈⼒投⼊极⼤：⾕歌 PaLM 540B 的团队：前期准备 29 ⼈，训练过程 11 ⼈，整个作者列表 68 ⼈训练过程不稳定：容易出现训练不收敛现象

2024-03-20

AIGC算力时代系列报告-ChatGPT芯片算力研究框架

ChatGPT热潮席卷全球。ChatGPT (Chat Generative Pre-traineed Transformer)是由OpenAl于2022年12月推出的对话Al模型,一经面世便受到广泛关注,其2023年1月月活跃用户达到1亿,是史上月活用户增长最快的消费者应用。在问答模式的基础上ChatGPT可以进行推理、编写代码、文本创作等等,这样的特殊优势和用户体验使得应用场景流量大幅增加。

2024-03-20

CS324课程大模型中的Scaling Law(规模法则)课件

CS324课程大模型中的Scaling Law(规模法则)课件 Scaling Laws简单介绍就是：随着模型参数量大小、数据集大小和用于训练的浮点数计算量的增加，模型的性能会提高。并且为了获得最佳性能，所有三个因素必须同时放大。当不受其他两个因素的制约时，模型性能与每个单独的因素都有幂律关系。对于Decoder-only的模型，计算量 C (FLOPs), 模型参数量 N, 数据大小 D(token数)，三者满足：C ≈6ND。模型的计算量 C一定后，模型的性能即精度就基本确定。它的决策变量只有 N 和 D，跟模型的具体结构诸如层数、深度、 attention头个数（宽度）基本无关。相关性非常小，性能（即test loss）在2%的区间内。

2024-03-20

清华大学新闻与传播学院发布的AIGC发展研究资料，2024年最新，200多页

聚焦AIGC产业发展现状及趋势，分技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇，是产业发展的概观性报告，也初步回应了突出的风险隐忧，旨在洞察行业的基础上，对AIGC发展趋势进行科学预测与展望，为社会各界应对AIGC领域的挑战提供了理论指导与实践建议。报告80%内容由AI自动生成，聚焦AIGC的多模态发展、多学科影响、全方位应用以及前沿探索，融汇了与AIGC相关的产业实践经验、学术研究探讨与社会理念摸索，致力于向读者提供全面了解AIGC动态的指南，共同探寻人工智能和人类未来发展的和谐之道。

2024-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

从零开始构建AI智能体！

WizardLM：使大型预训练语言模型能够遵循复杂的指令

张量分解_张量CP分解_张量Tucker分解_详细介绍！

2024大模型AI工程师必备技能

5种人工智能公司（大模型领域）

Fast LLM Serving with vLLM and PagedAttention

Openai CEO奥特曼和Brad访谈(2024年4月17日)，哪些公司将被 OpenAI 淘汰？

【东方财富证券】从硬件、算法、应用角度看ChatGPT浪潮引领AIGC革新投资机遇

【钛媒体国际智库】中美AI大模型应用比较研究报告

【中国信通院2023】人工智能大模型赋能医疗健康产业白皮书

(Language Modeling)Introduction to N-grams

【SuperCLUE团队】中文大模型基准测评2023年度报告

【中国信通院2022】人工智能AI框架发展白皮书

剑桥大学：2023State of AI Report

【中国信息通信研究】2023大模型落地应用案例集

清华⼤学计算机系 知识⼯程实验室（KEG）唐杰《从千亿模型到ChatGPT的⼀点思考》

AIGC算力时代系列报告-ChatGPT芯片算力研究框架

CS324课程大模型中的Scaling Law(规模法则)课件

清华大学新闻与传播学院发布的AIGC发展研究资料，2024年最新，200多页

图像处理透视变换(Python+Opencv)

BP期末论文算法word文档+代码

楷体_GB2312.zip

VNC-Server-6.3.2-Linux-x64.deb

仿宋_GB2312.zip

VNC-Viewer-6.20.113-Linux-x86.deb

cvpr_2020.zip

空空如也

清华⼤学计算机系知识⼯程实验室（KEG）唐杰《从千亿模型到ChatGPT的⼀点思考》