
AI大模型技术
文章平均质量分 92
大模型(预训练模型、基础模型等)是“大算力+ 强算法”结合的产物。大模型通常在大规模无标注数据上进行训练,以学习某种特征。在大模型进行开发应用时,将大模型进行微调,如对某些下游任务进行小规模标注数据的二次训练或不进行微调就可以完成。
常耀斌
CTO,AI科学家。2024年,清华大学出版社发行《大数据架构之道和项目实战》《AI赋能企业数字化转型》《深度学习和大模型实战》
展开
-
DeepSeek:技术洞察与解析(深度好文)
DeepSeek不仅是技术创新的代表,更是AI普惠化的里程碑。它通过低成本、高效率和场景化应用,重新定义了人机协作的边界,成为推动社会进步的重要引擎。原创 2025-02-07 09:09:29 · 2249 阅读 · 0 评论 -
AI大模型系列之十:卷积神经网络原理
CNN到底是怎么识别的?用CNN有哪些优势呢?我下面就来简单分析一下。为什么要用神经网络?对于同一个分类任务,我们可以用机器学习的算法来做,为什么要用神经网络呢?大家回顾一下,一个分类任务,我们在用机器学习算法来做时,首先要明确feature和label,然后把这个数据"灌"到算法里去训练,最后保存模型,再来预测分类的准确性。但是这就有个问题,即我们需要实现确定好特征,每一个特征即为一个维.........原创 2018-11-09 16:37:59 · 799 阅读 · 1 评论 -
常耀斌:深度学习和大模型原理与实战(深度好文)
深度神经网络通常需要对输入数据进行预处理和特征提取,以便网络能够更好地学习数据的表示。而在Transformer中,输入数据被转换为多头注意力机制的查询、键和值,这些查询、键和值可以被用来计算自注意力权重。原创 2024-12-18 13:00:02 · 1374 阅读 · 0 评论 -
数字化转型系列:业务中台和数据中台架构解析
目标:1.通过对行业中大型项目需求实例分析,掌握需求定义、捕获、分析与建模、需求 描述、需求验证理论和实践方法,能够有效地在软件生命周期中管理需求;2.应用有效的需求管理技术,生成清晰的产品需求;3.使用用例建模技术捕获并记录需求;4.建立文档分层结构和产品的不同层次需求的标准;5.使用属性和可追踪性,在整个生命周期内管理需求范围和变更;6.理解需求如何驱劢设计、测试和用户文档活劢;UML用例图用例:Actor参与者/User Case用例-功能/Relationship关系.原创 2020-09-30 13:22:15 · 2070 阅读 · 0 评论 -
AI如何赋能数字化转型?
《AI赋能企业数字化转型》通过经营、营销、运营、产品、技术和组织六大战略规划,集 20 个知名企业成功转型案例和 20多种最前沿的 AI 理念,以及作者在华为的 IPD 管理实战,全面阐述经营实践,提炼产品精髓,萃取数字要素,为企业管理者和数字化人员提供借鉴和参考,让战略支撑企业做正确的事,让流程支撑企业正确地做事。数字化转型可以提升企业的核心竞争力,是指对企业拥有的独特的、长期性的、强有力的资源和能力,使其能够在竞争激烈的市场中具有优势,并以此获得相对于竞争对手更好的市场地位、更高的利润和更多的客户。原创 2024-10-11 12:39:51 · 1208 阅读 · 2 评论 -
数字化转型系列:蓝图规划驱动项目落地
数字化转型定义:即通过新一代数字技术的深入运用,构建一个全感知、全链接、全场景、全智能的数字世界,进而优化再造物理世界的业务,对传统管理模式、业务模式、商业模式进行创新和重塑,最终实现业务成功。原创 2024-07-10 18:06:31 · 1445 阅读 · 1 评论 -
2024世界人工智能大会:谈AI如何落地?
2024 年世界人工智能大会暨人工智能全球治理高级别会议,非常火爆。第一天,19 场论坛、数百位 AI 圈最瞩目的学术界、产业界代表展开了密集的讨论。原创 2024-07-11 09:32:27 · 1022 阅读 · 0 评论 -
AI大模型系列之九:人脸识别技术
图像识别的过程总结如下:信息的获取:是通过传感器,将光或声音等信息转化为电信息。信息可以是二维的图象如文字,图象等;可以是一维的波形如声波,心电图,脑电图;也可以是物理量与逻辑值。 预处理:包括A\D,二值化,图象的平滑,变换,增强,恢复,滤波等, 主要指图象处理。 特征抽取和选择:在模式识别中,需要进行特征的抽取和选择,例如,一幅64x64的图象可以得到4096个数据,这种在测量空间的原...原创 2018-12-03 09:28:59 · 17995 阅读 · 1 评论 -
AI大模型系列之八:YoloV3的整体框架介绍
YOLOV到底做了什么?YOLO核心思想把目标检测转变成一个回归问题。将整个图像作为网络的输入,仅仅经过一个神经网络,得到边界框的位置及其所属的类别。原创 2022-05-13 16:37:57 · 1781 阅读 · 0 评论 -
AI大模型系列之七:Transformer架构讲解
Transformer模型设计之初,用于解决机器翻译问题,是完全基于注意力机制构建的编码器-解码器架构,编码器和解码器均由若干个具有相同结构的层叠加而成,每一层的参数不同。编码器主要负责将输入序列转化为一个定长的向量表示,解码器则将这个向量解码为输出序列。Transformer总体架构可分为四个部分:输入部分、编码器、解码器、输出部分。原创 2024-05-13 19:28:34 · 10196 阅读 · 1 评论 -
AI大模型系列之六:基于LLM的Agent架构图解
Agent是什么?Agent是一种能够自主决策、采取行动以达到某种目标的实体。AI Agent则被明确定义为:基于人工智能(尤其是大模型)技术,能够感知和理解环境,并采取行动以完成目标的智能实体。Agent能干什么?AI Agent 主要依托LLM模型和具体的业务场景来调用相应的工具来完成任务目标,智能化程度和行业贴合度会更明显。原创 2024-05-12 17:38:43 · 16326 阅读 · 1 评论 -
AI大模型系列之三:Swin Transformer 最强CV图解(深度好文)
SwinTransformer是一种为视觉领域设计的分层Transformer结构。它的两大特性是滑动窗口和分层表示。滑动窗口在局部不重叠的窗口中计算自注意力,并允许跨窗口连接。分层结构允许模型适配不同尺度的图片,并且计算复杂度与图像大小呈线性关系。Swin Transformer借鉴了CNN的分层结构,不仅能够做分类,还能够和CNN一样扩展到下游任务,用于计算机视觉任务的通用主干网络,可以用于图像分类、图像分割、目标检测等一系列视觉下游任务。原创 2024-03-30 21:24:57 · 16923 阅读 · 2 评论 -
AI大模型系列之五:BERT技术详解(深度好文)
BERT(Bidirectional Encoder Representations from Transformers)是由 Google 开发的一个预训练模型,通过无监督的学习方式,可以学习出一种通用的语言表征,即每个词汇的向量表示,这些向量表示可以应用到各种自然语言处理任务中,例如句子分类、命名实体识别、问答等任务。BERT 的主要贡献是提出了一种双向 Transformer 模型,可以通过对上下文的建模来更好地表示词汇。原创 2020-10-19 16:09:32 · 29039 阅读 · 2 评论 -
AI大模型系列之一:大模型原理科普(深度好文)
如何深入浅出理解大模型,一下子认识AI大模型的家族:生成式AI、监督学习、无监督学习、强化学习、深度学习、大语言模型和Transformer架构,你值得拥有!原创 2024-04-09 10:23:03 · 23560 阅读 · 4 评论 -
AI大模型系列之四:深入浅出CNN
与传统机器学习相比,深度学习是从数据中学习,而大模型则是通过使用大量的模型来训练数据。深度学习可以处理任何类型的数据,例如图片、文本等等;但是这些数据很难用机器完成。大模型可以训练更多类别、多个级别的模型,因此可以处理更广泛的类型。原创 2019-09-17 10:15:31 · 6984 阅读 · 1 评论 -
AI大模型系列之二:ChatGPT科普(深度好文)
ChatGPT是人工智能研究实验室OpenAI研发的聊天机器人程序,通俗讲,ChatGPT是人工智能里程碑,你可以把它当做一个人工智能聊天软件。可能你会问,这类人工智能产品,市面上不是有吗?有是有,可若是跟ChatGPT比起来,其他的产品都是不值一提。ChatGPT厉害到什么程度呢?举例:ChatGPT能把项目文件的要点总结出来,还能附上数据来源,还可以帮你制作图表,还能帮你撰写论文、设计图片、翻译、撰写代码等等。因此,ChatGPT会较快影响各行各业,一是文字类工作,这是首当其冲,特别是内容创作以及归纳性原创 2024-04-10 14:24:59 · 2824 阅读 · 2 评论