网络安全苏柒-CSDN博客

原创 transformer模型原理

一、Transformer的输入1）词向量2）位置编码向量二、Encoder block（编码块）a.self-Attention机制三、Decoder block（解码块）1）第一个 Multi-Head Attention2）第二个 Multi-Head Attention四、Tramsformer的输出!x-oss-上图为transformer的整体结构图。我们可以观察到，他本质是一个seq2seq的架构，也就是encoder-decoder模型。

2024-06-29 16:45:00 1018

原创 LIME算法：模型的可解释性（代码实现）

LIME算法是Marco Tulio Ribeiro2016年发表的论文《“Why Should I Trust You?Predictions of Any Classiﬁer》中介绍的局部可解释性模型算法。该算法主要是用在文本类与图像类的模型中。![在这里插入图片描述](https://img-blog.csdnimg.cn/20200512145526234.png?x-oss-

2024-06-29 13:00:00 769

原创 GPT模型总结【模型结构及计算过程_详细说明】

可以看到GPT模型的forward函数中，首先进行Embedding操作，然后经过12层transformer的block中进行运算，然后分别经过两个线性变换得到最终计算值（一个用于文本预测，一个用于任务分类器），代码与最开始展示的模型结构图保持一致。预训练阶段为文本预测，即根据已有的历史词预测当前时刻的词，7-2,7-3,7-4三个式子对应之前的GPT结构图，输出P(x)为输出，每个词被预测到的概率，再利用7-1式，计算最大似然函数，据此构造损失函数，即可以对该语言模型进行优化。（如下图红框中所示）

2024-06-29 10:00:00 771

原创 Flow模型

一、简述Flow模型是生成模型，目标是找到输入样本的分布。Flow模型选择直接直面生成模型的概率计算。流模型有一个非常与众不同的特点是，它的转换通常是可逆的。也就是说，流模型不仅能找到从A分布变化到B分布的网络通路，并且该通路也能让B变化到A，简言之流模型找到的是一条A、B分布间的双工通路。当然，这样的可逆性是具有代价的——A、B的数据维度必须是一致的。A、B分布间的转换并不是轻易能做到的，流模型为实现这一点经历了三个步骤：最初的NICE实现了从A分布到高斯分布的可逆求解；

2024-06-28 20:50:46 779

原创 Bert 模型学习

把每一个训练样例输入到 BERT 中可以相应获得两个任务对应的 loss，再把这两个 loss 加在一起就是整体的预训练loss。（也就是两个任务同时进行训练）可以明显地看出，这两个任务所需的数据其实都可以从无标签的文本数据中构建（自监督性质），比 CV 中需要人工标注的 ImageNet 数据集可简单多了。

2024-06-28 20:50:16 1065

原创 AGI 革命是第四次重大技术变革，大模型+Agent 创无限想象空间 - 涛滔不绝

李大海将 AGI革命比作继蒸汽革命、电力革命和信息革命之后的第四次重大技术变革。早在 ChatGPT 刚一出现，时任知乎 CTO 的李大海就注意到了它，“它是 AGI时代的第一台蒸汽机”。除了惊叹于它的超强能力，也很早就下定决心一定要加入大模型战局。很快，他找到了面壁智能，彼时，这个从 Infra到模型训练的积累都相当完整的团队，其大模型训练团队仅有二十多人。他认为，面壁智能是国内最早从事大语言模型研发的团队之一，其核心科研成员来自于清华大学 THUNLP。

2024-06-28 20:49:42 775

原创【深度学习模型】ChatGPT原理简述

2022年11月30日，OpenAI推出人工智能聊天模型ChatGPT（Dialogue），很快引起百万用户注册使用，公众号和热搜不断，迅速火出圈，甚至引起各大公司在聊天对话机器人上的军备竞赛。

2024-06-27 14:00:00 944

原创中文版GPT-3来了？智源、清华发布清源 CPM——以中文为核心的大规模预训练模型

清源 CPM 计划由北京智源人工智能研究院 (简称“智源研究院”)和清华大学研究团队合作开展。智源研究院是在科技部和北京市委市政府的指导和支持下，由北京市科委和海淀区政府于2018年11月推动成立的新型研发机构。智源研究院通过设立“智源学者计划”，在多个重大研究方向重点支持人工智能科学家挑战人工智能最基础的问题和最关键的难题。“自然语言处理”是智源研究院重点支持的重大研究方向之一。

2024-06-27 12:00:00 1064

原创 AIGC实战——生成模型简介

0\. 前言1. 生成模型2. 生成模型与判别模型的区别* 2.1 模型对比2.2 条件生成模型2.3 生成模型的发展2.4 生成模型与人工智能3. 生成模型示例* 3.1 简单示例3.2 生成模型框架4. 表示学习5. 生成模型与概率论6. 生成模型分类小结系列链接生成式人工智能 (GAI是一种人工智能方法，旨在通过学习训练数据的分布模型来生成新的、原创的数据。人工智能生成内容 (AIGC。

2024-06-27 10:00:00 1021

原创探索AIGC技术：创新、挑战与责任

AIGC是人工智能（AI）、算法（Algorithms）、机器学习（Machine Learning）和数据挖掘（DataMining）技术的缩写。这些技术在计算机科学领域中发挥着重要作用，用于处理和分析数据、实现自动化决策和预测，以及优化各种应用程序和系统。AIGC技术的发展已经在多个领域产生了深远影响，包括自然语言处理、图像识别、智能推荐系统等。创新AIGC技术的结合确实为医学、农业和生物科学等领域带来了巨大的潜力和机遇。医学领域。

2024-06-26 21:35:05 828

原创【AIGC重塑教育】AI大模型驱动的教育变革与实践

AI作为难以否认的智者，有潜力成为我们的最佳教师。在STEM（科学、技术、工程、数学）教育中，AI可以提供更多的模拟和实验场景，让学生可以通过动手操作、探索发现、试错反馈等方式，学习基本的概念和原理。希望通过《AIGC重塑教育：AI大模型驱动的教育变革与实践》这本书，家长能深入理解并掌握在AI时代帮助孩子学习的策略，确保他们能够积极面对AI带来的机遇和挑战，同时避免其潜在的风险。观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

2024-06-26 21:34:28 920

原创【AIGC】大模型在金融行业的应用场景和落地路径

这是最好的时代，也是最坏的时代。尽管大模型技术在金融领域具有巨大的应用潜力，但其应用也面临不容忽视的风险和挑战。本文将深入研究大模型在金融领域的数据隐私和安全风险、模型可解释性和透明度、监管和合规要求，梳理中国、美国、欧洲等地 AIGC 技术的应用规则，探索对应的风险管理和应对策略。01 大模型在金融领域的 5 个典型应用场景当前，金融科技已经从“立柱架梁”迈入了“积厚成势”新阶段，越来越多的金融机构积极使用数字技术来为金融血脉注入全新能量。人工智能技术正加速与金融产业深度融合，以。

2024-06-26 21:33:45 911

原创【大模型】LLaMA-1 模型介绍

Hoffmann 等人（2022）最近的工作表明了，在给定的计算预算下，最佳性能不是由最大的模型实现的，而是基于更多数据上的训练较小模型实现的。和之前的工作相比，本论文的重点是基于更多 tokens 的训练集，在各种推理预算下，训练出性能最佳的一系列语言模型，称为 LLaMA，参数范围从7B 到 65B 不等，与现有最佳 LLM 相比，其性能是有竞争力的。比如，LLaMA-13B 在大多数基准测试中优于 GPT-3，尽管其尺寸只有GPT-3 的十分之一。

2024-06-25 20:49:48 1022

原创大规模语言模型--LLaMA 家族

LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出，包括四种尺寸(7B 、13B 、30B 和 65B)。由于 LLaMA 的开放性和有效性，自从 LLaMA 一经发布，就受到了研究界和工业界的广泛关注。LLaMA 模型在开放基准的各种方面都取得了非常出色的表现，已成为迄今为止最流行的开放语言模型。大批研究人员通过指令调整或持续预训练扩展了 LLaMA 模型。特别需要指出的是，指令调优 LLaMA已成为一种主要开发定制专门模型的方法，由于相对较低的计算成本。

2024-06-25 20:48:57 705

原创 AI大模型

目前，最著名的AI大模型是OpenAI的GPT-3模型，该模型可以自动产生高质量的文本内容，并能够通过简单的提示与用户进行交互。但是，与其他AI技术一样，AI大模型的应用场景非常广泛，也可以使用其他语言和开发框架进行开发和应用。例如，Java、C++等语言也可以用于AI大模型的开发和应用。本文将介绍什么是AI大模型，它能应用到哪些行业，使用AI大模型的具体步骤以及应该注意的事项。这些应用案例都需要使用AI大模型进行训练和推理，涉及到大量的数据处理和计算资源，需要采用高效的算法和计算平台。

2024-06-25 20:47:39 827

原创简单几步微调Llama 3大模型，小白轻松上手

这是面向小白用户的一个超级简单的微调大模型示例，通过这个例子将得到一个速度翻倍，并可以包含自己业务知识数据的微调后llama3模型，可用于本地部署构建私有化的AI智能体。very 的 nice首先请准备好google账号和网络环境，这个示例基于goolge colab的免费算力完成。使用浏览器打开上方链接将点击copy to Drive复制笔记到自己账号下的网盘，点击之后弹出新窗口我们就在这个弹出的新窗口操作，界面都是英文不多解释，跟着操作就好点击第一个运行小箭头，安装基础环境，要稍等片刻的时间。

2024-06-22 12:00:00 976

原创基于开源模型搭建Agent系统教程

一篇非常基础非常基础的Agent博客。

2024-06-22 11:15:00 874

原创华为盘古大模型，让中医走向世界_2024年4月华为公司宣布推出什么大模型？_华为医学大模型

随着科技的飞速发展，人工智能已经逐渐渗透到各行各业，为许多领域带来了翻天覆地的变化。。华为作为全球领先的科技企业，一直致力于将人工智能技术应用于医药领域，推动传统医学与现代科技的深度融合。其中，华为中医药大模型便是其在这一领域的重要成果之一。。这一天，浙江九为健康科技股份有限公司与华为云计算技术有限公司在华为深圳总部签署了中医药大模型全面深化合作协议，共同推出了这一创新性的中医药大模型。该模型的出现标志着传统中医药与现代科技的深度融合，为中医药领域的研究、开发和应用提供了新的思路和方法。

2024-06-22 10:15:00 1520

原创 LLM 大模型学习必知必会系列(一)：大模型基础知识篇

我们通常会看到某模型研发机构开源了 base 模型和 chat 模型，那 base 模型和 chat 模型有什么区别呢？首先，所有的大语言模型（LLM）的工作方式都是接收一些文本，然后预测最有可能出现在其后面的文本。base 模型，也就是基础模型，是在海量不同文本上训练出来的预测后续文本的模型。后续文本未必是对指令和对话的响应。

2024-06-21 21:33:00 845

原创 ChatGLM4重磅开源! 连忙实操测试一波，效果惊艳，真的好用！

GLM-4-9B是智谱AI在24年6月5日推出的开源预训练模型，属于GLM-4系列。之前已开源chatglm1~chatglm3等多个版本。GLM4在语义理解、数学、推理、编程和知识等领域的测试中表现优异。GLM-4-9B-Chat是其人类偏好对齐版本，支持多轮对话、网页浏览、代码执行、自定义工具调用(function call)以及长文本推理（最大128K上下文）。该系列模型还支持26种语言，包括日语、韩语和德语，并推出了支持1M上下文长度（约200万中文字符）的版本。GLM-4-9B 系列模型主要包含:

2024-06-21 21:32:29 863

原创 AI大模型知识点大梳理_ai大模型知识学习

与其在AI抢占就业机会的危机中患得患失，不如快点接受这个新技术，将AI引入自己的工作中，通过AI来提升自己的生产力和创造力。AI大模型通过学习大量的图像数据和构建更深更复杂的神经网络，使计算机能够对图像进行更加准确的识别和分析。总的来说，“大模型”应该是基于具有超级大规模的、甚至可以称之为“超参数”的模型，需要大量的计算资源、更强的计算能力以及更优秀的算法优化方法进行训练和优化。大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。

2024-06-21 21:31:56 823

原创【劲爆消息】GLM4 开源了！！！人工智能大模型又一大进步

在人工智能领域，开源项目总是能够激发社区的创新活力。今天，我们要分享一个令人震撼的消息：智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本——GLM-4-9B，现已全面开源！GLM-4-9B 不仅仅是一个模型，它是智谱 AI 对深度学习和自然语言处理能力的一次全新探索。在语义理解、数学推理、代码执行等多个领域，GLM-4-9B 展现出了超越 Llama-3-8B 的卓越性能。

2024-06-20 17:27:42 354

原创【大模型微调】一文掌握7种大模型微调的方法

本篇文章深入分析了大型模型微调的基本理念和多样化技术，细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景，使得读者可以依据特定的应用要求和计算资源限制，挑选最适合的微调方案。大型语言模型(LLM)的训练过程通常分为两大阶段：阶段一：预训练阶段在这个阶段，大型模型会在大规模的无标签数据集上接受训练，目标是使模型掌握语言的统计特征和基础知识。

2024-06-20 17:26:57 360

原创【AI大模型】应用开发基础，学到就是赚到！_ai大模型应用开发

1、了解大模型能做什么2、整体了解大模型应用开发技术栈3、浅尝OpenAI API的调用AI全栈工程师：懂AI、懂编程、懂业务的超级个体，会是AGI（Artificial General Intelligence 通用人工智能）时代最重要的人。

2024-06-20 17:25:38 1123

原创一文搞定大语言模型（LLM）微调方法

众所周知，大语言模型(LLM)正在飞速发展，各行业都有了自己的大模型。其中，大模型微调技术在此过程中起到了非常关键的作用，它提升了模型的生成效率和适应性，使其能够在多样化的应用场景中发挥更大的价值。那么，今天这篇文章就带大家深入了解大模型微调。其中主要包括什么是大模型微调、什么时候需要大模型微调、大模型微调方法总结、大模型微调最佳实践等。在介绍大模型微调方法之前，首先带大家了解一下大语言模型的项目生命周期，它大致可以分为以下几个步骤，如下图所示：首先，明确项目目标。

2024-06-19 17:26:55 957

原创一张图看懂大模型性价比：能力、价格、并发量全面PK

百度最强模型的价格不变，但轻量模型把“厘时代”直接打到免费。不过需要注意的是，根据文心一言官网介绍，ERNIE Speed模型适用于精调，而精调还是要收费的。阿里云的模型全线降价，最强模型降幅低，轻量模型降幅高。所有价格应该都是经过了精密的测算，不会是随意拍的数。从价格来看还是颇有诚意，但初始支持的TPM/RPM稍显不足，企业在实际使用中需要对相关权益做好沟通。字节，火山引擎。当我们说起价格那些事儿，不由想起《明朝那些事儿》的经典台词：要么不做，要么做绝。

2024-06-19 17:25:49 843

原创掌握三大秘籍，普通人也能轻松驾驭AI大模型：告别技术焦虑，快速上手攻略

机器学习项目成功的关键，在于对问题的深刻理解，而非算法的选择。——彼得·诺维格（Peter Norvig）谷歌研究总监，人工智能专家这是互联网悦读笔记五一后正式复更的第一天。也是我开始系统化对外输出AI思考的第一篇文章。熟悉这个号的朋友大概能猜到，24年初开始，我就把主要精力投入在了AIGC产品的应用研究上。期间，我不断尝试把大模型落地到企业的实际工作中，并参考了大量行业案例和知识付费课程。但遗憾的是，很多人仍会对这项新技术持怀疑态度。

2024-06-19 17:24:51 870

原创爆火的AI Agent到底是什么？有了大模型为什么还需要AI Agent？

总结来说，大模型和Agent都属于实现人工智能的一种技术实现方式；AI是一个人，那么大模型就是这个人的大脑，Agent就是大脑指挥做事的工具集。

2024-06-18 20:19:14 1117

原创 ChatGLM4重磅开源! 连忙实操测试一波，效果惊艳，真的好用！

GLM-4-9B是智谱AI在24年6月5日推出的开源预训练模型，属于GLM-4系列。之前已开源chatglm1~chatglm3等多个版本。GLM4在语义理解、数学、推理、编程和知识等领域的测试中表现优异。GLM-4-9B-Chat是其人类偏好对齐版本，支持多轮对话、网页浏览、代码执行、自定义工具调用(function call)以及长文本推理（最大128K上下文）。该系列模型还支持26种语言，包括日语、韩语和德语，并推出了支持1M上下文长度（约200万中文字符）的版本。GLM-4-9B 系列模型主要包含:

2024-06-18 20:18:29 1026

空空如也

空空如也