自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(717)
  • 收藏
  • 关注

原创 transformer模型原理

一、Transformer的输入1)词向量2)位置编码向量二、Encoder block(编码块)a.self-Attention机制三、Decoder block(解码块)1) 第一个 Multi-Head Attention2) 第二个 Multi-Head Attention四、Tramsformer的输出!x-oss-上图为transformer的整体结构图。我们可以观察到,他本质是一个seq2seq的架构,也就是encoder-decoder模型。

2024-06-29 16:45:00 1018

原创 LIME算法:模型的可解释性(代码实现)

LIME算法是Marco Tulio Ribeiro2016年发表的论文《“Why Should I Trust You?Predictions of Any Classifier》中介绍的局部可解释性模型算法。该算法主要是用在文本类与图像类的模型中。![在这里插入图片描述](https://img-blog.csdnimg.cn/20200512145526234.png?x-oss-

2024-06-29 13:00:00 769

原创 GPT模型总结【模型结构及计算过程_详细说明】

可以看到GPT模型的forward函数中,首先进行Embedding操作,然后经过12层transformer的block中进行运算,然后分别经过两个线性变换得到最终计算值(一个用于文本预测,一个用于任务分类器),代码与最开始展示的模型结构图保持一致。预训练阶段为文本预测,即根据已有的历史词预测当前时刻的词,7-2,7-3,7-4三个式子对应之前的GPT结构图,输出P(x)为输出,每个词被预测到的概率,再利用7-1式,计算最大似然函数,据此构造损失函数,即可以对该语言模型进行优化。(如下图红框中所示)

2024-06-29 10:00:00 771

原创 Flow模型

一、简述Flow模型是生成模型,目标是找到输入样本的分布。Flow模型选择直接直面生成模型的概率计算。流模型有一个非常与众不同的特点是,它的转换通常是可逆的。也就是说,流模型不仅能找到从A分布变化到B分布的网络通路,并且该通路也能让B变化到A,简言之流模型找到的是一条A、B分布间的双工通路。当然,这样的可逆性是具有代价的——A、B的数据维度必须是一致的。A、B分布间的转换并不是轻易能做到的,流模型为实现这一点经历了三个步骤:最初的NICE实现了从A分布到高斯分布的可逆求解;

2024-06-28 20:50:46 779

原创 Bert 模型学习

把每一个训练样例输入到 BERT 中可以相应获得两个任务对应的 loss,再把这两个 loss 加在一起就是整体的预训练loss。(也就是两个任务同时进行训练)可以明显地看出,这两个任务所需的数据其实都可以从无标签的文本数据中构建(自监督性质),比 CV 中需要人工标注的 ImageNet 数据集可简单多了。

2024-06-28 20:50:16 1065

原创 AGI 革命是第四次重大技术变革,大模型+Agent 创无限想象空间 - 涛滔不绝

李大海将 AGI革命比作继蒸汽革命、电力革命和信息革命之后的第四次重大技术变革。早在 ChatGPT 刚一出现,时任知乎 CTO 的李大海就注意到了它,“它是 AGI时代的第一台蒸汽机”。除了惊叹于它的超强能力,也很早就下定决心一定要加入大模型战局。很快,他找到了面壁智能,彼时,这个从 Infra到模型训练的积累都相当完整的团队,其大模型训练团队仅有二十多人。他认为,面壁智能是国内最早从事大语言模型研发的团队之一,其核心科研成员来自于清华大学 THUNLP。

2024-06-28 20:49:42 775

原创 【深度学习模型】ChatGPT原理简述

2022年11月30日,OpenAI推出人工智能聊天模型ChatGPT(Dialogue),很快引起百万用户注册使用,公众号和热搜不断,迅速火出圈,甚至引起各大公司在聊天对话机器人上的军备竞赛。

2024-06-27 14:00:00 944

原创 中文版GPT-3来了?智源、清华发布清源 CPM——以中文为核心的大规模预训练模型

清源 CPM 计划由北京智源人工智能研究院 (简称“智源研究院”)和清华大学研究团队合作开展。智源研究院是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府于2018年11月推动成立的新型研发机构。智源研究院通过设立“智源学者计划”,在多个重大研究方向重点支持人工智能科学家挑战人工智能最基础的问题和最关键的难题。“自然语言处理”是智源研究院重点支持的重大研究方向之一。

2024-06-27 12:00:00 1064

原创 AIGC实战——生成模型简介

0\. 前言1. 生成模型2. 生成模型与判别模型的区别* 2.1 模型对比2.2 条件生成模型2.3 生成模型的发展2.4 生成模型与人工智能3. 生成模型示例* 3.1 简单示例3.2 生成模型框架4. 表示学习5. 生成模型与概率论6. 生成模型分类小结系列链接生成式人工智能 (GAI是一种人工智能方法,旨在通过学习训练数据的分布模型来生成新的、原创的数据。人工智能生成内容 (AIGC。

2024-06-27 10:00:00 1021

原创 探索AIGC技术:创新、挑战与责任

AIGC是人工智能(AI)、算法(Algorithms)、机器学习(Machine Learning)和数据挖掘(DataMining)技术的缩写。这些技术在计算机科学领域中发挥着重要作用,用于处理和分析数据、实现自动化决策和预测,以及优化各种应用程序和系统。AIGC技术的发展已经在多个领域产生了深远影响,包括自然语言处理、图像识别、智能推荐系统等。创新AIGC技术的结合确实为医学、农业和生物科学等领域带来了巨大的潜力和机遇。医学领域。

2024-06-26 21:35:05 828

原创 【AIGC重塑教育】AI大模型驱动的教育变革与实践

AI作为难以否认的智者,有潜力成为我们的最佳教师。在STEM(科学、技术、工程、数学)教育中,AI可以提供更多的模拟和实验场景,让学生可以通过动手操作、探索发现、试错反馈等方式,学习基本的概念和原理。希望通过《AIGC重塑教育:AI大模型驱动的教育变革与实践》这本书,家长能深入理解并掌握在AI时代帮助孩子学习的策略,确保他们能够积极面对AI带来的机遇和挑战,同时避免其潜在的风险。观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

2024-06-26 21:34:28 920

原创 【AIGC】大模型在金融行业的应用场景和落地路径

这是最好的时代,也是最坏的时代。尽管大模型技术在金融领域具有巨大的应用潜力,但其应用也面临不容忽视的风险和挑战。本文将深入研究大模型在金融领域的数据隐私和安全风险、模型可解释性和透明度、监管和合规要求,梳理中国、美国、欧洲等地 AIGC 技术的应用规则,探索对应的风险管理和应对策略。01 大模型在金融领域的 5 个典型应用场景当前,金融科技已经从“立柱架梁”迈入了“积厚成势”新阶段,越来越多的金融机构积极使用数字技术来为金融血脉注入全新能量。人工智能技术正加速与金融产业深度融合,以。

2024-06-26 21:33:45 911

原创 【大模型】LLaMA-1 模型介绍

Hoffmann 等人(2022)最近的工作表明了,在给定的计算预算下,最佳性能不是由最大的模型实现的,而是基于更多数据上的训练较小模型实现的。和之前的工作相比,本论文的重点是基于更多 tokens 的训练集,在各种推理预算下,训练出性能最佳的一系列语言模型,称为 LLaMA,参数范围从7B 到 65B 不等,与现有最佳 LLM 相比,其性能是有竞争力的。比如,LLaMA-13B 在大多数基准测试中优于 GPT-3,尽管其尺寸只有GPT-3 的十分之一。

2024-06-25 20:49:48 1022

原创 大规模语言模型--LLaMA 家族

LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出, 包括四种尺寸(7B 、13B 、30B 和 65B)。由于 LLaMA 的开放性和有效性, 自从 LLaMA 一经发布, 就受到了研究界和工业界的广泛关注。LLaMA 模型在开放基准的各 种方面都取得了非常出色的表现,已成为迄今为止最流行的开放语言模型。大批研究人员通过指令调整或持续 预训练扩展了 LLaMA 模型。特别需要指出的是, 指令调优 LLaMA已成为一种主要开发定制专门模型的方法, 由于相对较低的计算成本。

2024-06-25 20:48:57 705

原创 AI大模型

目前,最著名的AI大模型是OpenAI的GPT-3模型,该模型可以自动产生高质量的文本内容,并能够通过简单的提示与用户进行交互。但是,与其他AI技术一样,AI大模型的应用场景非常广泛,也可以使用其他语言和开发框架进行开发和应用。例如,Java、C++等语言也可以用于AI大模型的开发和应用。本文将介绍什么是AI大模型,它能应用到哪些行业,使用AI大模型的具体步骤以及应该注意的事项。这些应用案例都需要使用AI大模型进行训练和推理,涉及到大量的数据处理和计算资源,需要采用高效的算法和计算平台。

2024-06-25 20:47:39 827

原创 简单几步微调Llama 3大模型,小白轻松上手

这是面向小白用户的一个超级简单的微调大模型示例,通过这个例子将得到一个速度翻倍,并可以包含自己业务知识数据的微调后llama3模型,可用于本地部署构建私有化的AI智能体。very 的 nice首先请准备好google账号和网络环境,这个示例基于goolge colab的免费算力完成。使用浏览器打开上方链接将点击copy to Drive复制笔记到自己账号下的网盘,点击之后弹出新窗口我们就在这个弹出的新窗口操作,界面都是英文不多解释,跟着操作就好点击第一个运行小箭头,安装基础环境,要稍等片刻的时间。

2024-06-22 12:00:00 976

原创 基于开源模型搭建Agent系统教程

一篇非常基础非常基础的Agent博客。

2024-06-22 11:15:00 874

原创 华为盘古大模型,让中医走向世界_2024年4月华为公司宣布推出什么大模型?_华为医学大模型

随着科技的飞速发展,人工智能已经逐渐渗透到各行各业,为许多领域带来了翻天覆地的变化。。华为作为全球领先的科技企业,一直致力于将人工智能技术应用于医药领域,推动传统医学与现代科技的深度融合。其中,华为中医药大模型便是其在这一领域的重要成果之一。。这一天,浙江九为健康科技股份有限公司与华为云计算技术有限公司在华为深圳总部签署了中医药大模型全面深化合作协议,共同推出了这一创新性的中医药大模型。该模型的出现标志着传统中医药与现代科技的深度融合,为中医药领域的研究、开发和应用提供了新的思路和方法。

2024-06-22 10:15:00 1520

原创 LLM 大模型学习必知必会系列(一):大模型基础知识篇

我们通常会看到某模型研发机构开源了 base 模型和 chat 模型,那 base 模型和 chat 模型有什么区别呢?首先,所有的大语言模型(LLM)的工作方式都是接收一些文本,然后预测最有可能出现在其后面的文本。base 模型,也就是基础模型,是在海量不同文本上训练出来的预测后续文本的模型。后续文本未必是对指令和对话的响应。

2024-06-21 21:33:00 845

原创 ChatGLM4重磅开源! 连忙实操测试一波,效果惊艳,真的好用!

GLM-4-9B是智谱AI在24年6月5日推出的开源预训练模型,属于GLM-4系列。之前已开源chatglm1~chatglm3等多个版本。GLM4在语义理解、数学、推理、编程和知识等领域的测试中表现优异。GLM-4-9B-Chat是其人类偏好对齐版本,支持多轮对话、网页浏览、代码执行、自定义工具调用(function call)以及长文本推理(最大128K上下文)。该系列模型还支持26种语言,包括日语、韩语和德语,并推出了支持1M上下文长度(约200万中文字符)的版本。GLM-4-9B 系列模型主要包含:

2024-06-21 21:32:29 863

原创 AI大模型知识点大梳理_ai大模型知识学习

与其在AI抢占就业机会的危机中患得患失,不如快点接受这个新技术,将AI引入自己的工作中,通过AI来提升自己的生产力和创造力。AI大模型通过学习大量的图像数据和构建更深更复杂的神经网络,使计算机能够对图像进行更加准确的识别和分析。总的来说,“大模型”应该是基于具有超级大规模的、甚至可以称之为“超参数”的模型,需要大量的计算资源、更强的计算能力以及更优秀的算法优化方法进行训练和优化。大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。

2024-06-21 21:31:56 823

原创 【劲爆消息】GLM4 开源了!!!人工智能大模型又一大进步

在人工智能领域,开源项目总是能够激发社区的创新活力。今天,我们要分享一个令人震撼的消息:智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本——GLM-4-9B,现已全面开源!GLM-4-9B 不仅仅是一个模型,它是智谱 AI 对深度学习和自然语言处理能力的一次全新探索。在语义理解、数学推理、代码执行等多个领域,GLM-4-9B 展现出了超越 Llama-3-8B 的卓越性能。

2024-06-20 17:27:42 354

原创 【大模型微调】一文掌握7种大模型微调的方法

本篇文章深入分析了大型模型微调的基本理念和多样化技术,细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景,使得读者可以依据特定的应用要求和计算资源限制,挑选最适合的微调方案。大型语言模型(LLM)的训练过程通常分为两大阶段:阶段一:预训练阶段在这个阶段,大型模型会在大规模的无标签数据集上接受训练,目标是使模型掌握语言的统计特征和基础知识。

2024-06-20 17:26:57 360

原创 【AI大模型】应用开发基础,学到就是赚到!_ai大模型应用开发

1、了解大模型能做什么2、整体了解大模型应用开发技术栈3、浅尝OpenAI API的调用AI全栈工程师:懂AI、懂编程、懂业务的超级个体,会是AGI(Artificial General Intelligence 通用人工智能)时代最重要的人。

2024-06-20 17:25:38 1123

原创 一文搞定 大语言模型(LLM)微调方法

众所周知,大语言模型(LLM)正在飞速发展,各行业都有了自己的大模型。其中,大模型微调技术在此过程中起到了非常关键的作用,它提升了模型的生成效率和适应性,使其能够在多样化的应用场景中发挥更大的价值。那么,今天这篇文章就带大家深入了解大模型微调。其中主要包括什么是大模型微调、什么时候需要大模型微调、大模型微调方法总结、大模型微调最佳实践等。在介绍大模型微调方法之前,首先带大家了解一下大语言模型的项目生命周期,它大致可以分为以下几个步骤,如下图所示:首先,明确项目目标。

2024-06-19 17:26:55 957

原创 一张图看懂大模型性价比:能力、价格、并发量全面PK

百度最强模型的价格不变,但轻量模型把“厘时代”直接打到免费。不过需要注意的是,根据文心一言官网介绍,ERNIE Speed模型适用于精调,而精调还是要收费的。阿里云的模型全线降价,最强模型降幅低,轻量模型降幅高。所有价格应该都是经过了精密的测算,不会是随意拍的数。从价格来看还是颇有诚意,但初始支持的TPM/RPM稍显不足,企业在实际使用中需要对相关权益做好沟通。字节,火山引擎。当我们说起价格那些事儿,不由想起《明朝那些事儿》的经典台词:要么不做,要么做绝。

2024-06-19 17:25:49 843

原创 掌握三大秘籍,普通人也能轻松驾驭AI大模型:告别技术焦虑,快速上手攻略

机器学习项目成功的关键,在于对问题的深刻理解,而非算法的选择。——彼得·诺维格(Peter Norvig)谷歌研究总监,人工智能专家这是互联网悦读笔记五一后正式复更的第一天。也是我开始系统化对外输出AI思考的第一篇文章。熟悉这个号的朋友大概能猜到,24年初开始,我就把主要精力投入在了AIGC产品的应用研究上。期间,我不断尝试把大模型落地到企业的实际工作中,并参考了大量行业案例和知识付费课程。但遗憾的是,很多人仍会对这项新技术持怀疑态度。

2024-06-19 17:24:51 870

原创 爆火的AI Agent到底是什么?有了大模型为什么还需要AI Agent?

总结来说,大模型和Agent都属于实现人工智能的一种技术实现方式;AI是一个人,那么大模型就是这个人的大脑,Agent就是大脑指挥做事的工具集。

2024-06-18 20:19:14 1117

原创 ChatGLM4重磅开源! 连忙实操测试一波,效果惊艳,真的好用!

GLM-4-9B是智谱AI在24年6月5日推出的开源预训练模型,属于GLM-4系列。之前已开源chatglm1~chatglm3等多个版本。GLM4在语义理解、数学、推理、编程和知识等领域的测试中表现优异。GLM-4-9B-Chat是其人类偏好对齐版本,支持多轮对话、网页浏览、代码执行、自定义工具调用(function call)以及长文本推理(最大128K上下文)。该系列模型还支持26种语言,包括日语、韩语和德语,并推出了支持1M上下文长度(约200万中文字符)的版本。GLM-4-9B 系列模型主要包含:

2024-06-18 20:18:29 1026

原创 AI大模型入门基础教程(非常详细),AI大模型入门到精通,收藏这一篇就够了!

AI大模型,简而言之,是基于深度学习技术的庞大规模数据与计算能力孕育出的智能模型。这些模型的特别之处在于它们不仅参数量级的庞大,常常跨越亿计,而且在处理复杂度上也远超乎想象。正是这种规模和复杂性,使得它们在诸如自然语言理解、图像识别、语音识别等领域展现出卓越的准确性和泛化的处理能力,几乎可比拟的泛化应用范围。

2024-06-18 20:17:36 762

原创 网络安全相关证书有哪些?_网络安全认证有哪些

说到CISP,安全从业者基本上都有所耳闻,算是国内权威认证,毕竟有政府背景给认证做背书,如果想在政府、国企及重点行业从业,企业获取信息安全服务资质,参与网络安全项目,这个认证都是非常重要的。CISP在你参加考试的时候,培训机构都会问你是选择CISO/CISE,不要担心,这两个只是考试方向,证书都是测评中心颁发的,认证详细情况请看后续推送…这个认证是2017年360企业集团联合中国信息安全测评中心推出的国内首个渗透测试认证,证书首先也是国测认证,所以具备申请安全服务资质的作业;

2024-04-11 20:57:15 700

原创 什么是网络安全、信息安全、计算机安全,有何区别?_网络与信息安全包含 建设安全 运维安全

机密性完整性Integrity可用性真实性实用性Utility占有性Possession非否认性我再加一个非否认性(Nonrepudiation)机密性访问未被授权的数据在计算上是不可行的完整性篡改数据且不被发觉在计算上是不可行的可鉴别性数据的来源可以被确定,伪造数据来源在计算上是不可行的非否认性数据的发布方否认数据的发布在计算上是不可行的,数据的接收方否认数据的接收方否认数据的接收在计算上也是不可行的。网络安全由于不同的环境和应用而产生了不同的类型。

2024-04-11 20:56:09 1255

原创 网络安全岗位面试题_网络安全面试题

介绍了网络安全岗位常见的面试题,仅供参考!

2024-04-11 20:52:37 880

原创 网络安全基础知识面试题库_内网攻击内网如何判断是否为误报

上。将强制性存取扩展到。

2024-03-12 10:29:03 978

原创 网络安全应急响应实施过程_在互联网安全事件应急响应预案中,以下哪个步骤是最后执行的?

应急响应准备的工作内容主要有2个:一是对信息系统进行初始化的快照;二是准备应急响应工具包。在检测的时候将保存的快照与信息系统当前状态进行对比,是发现安全事件的一种重要途径。除对比系统初始化快照外,安全事件检测手段还包括部署入侵检测设备、流量监控和防病毒系统集中监控等。网络安全攻击事件可以分为拒绝服务类攻击、系统漏洞及恶意代码类攻击、网络欺骗类攻击、网络窃听类攻击、数据库SQL注入类攻击,针对每一类攻击事件都需制定相应的抑制与根除方法。

2024-03-12 10:23:11 1179

原创 网络安全面试必问_网络安全面试常见问题

GET。

2024-03-12 10:11:40 1046

原创 网络安全研究生选择哪个方向有前景?_网安学硕方向系统安全,网络安全,应用安全,信息系统安全

网络空间安全专业越来越受到国家政策的支持;而滴滴APP泄露个人隐私等事件,也使得大众的安全意识和安全需求前所未有的提高。在这样的环境下,越来越多的同学想要攻读网络安全专业,那么问题来了,

2024-03-11 20:08:19 1472

原创 网络安全的相关比赛有哪些?需要掌握哪些必备技能?

以上是我为大家介绍的几个比较有名的网络安全比赛,这些比赛不仅能够提高个人技能水平,更能够在竞争中学习、成长。如果你对网络安全比赛感兴趣,可以参加这些比赛,通过和其他安全从业者的交流和竞争,不断提升自己的技能和认知水平。

2024-03-11 20:04:42 1512

原创 网络安全应急响应实施过程_在互联网安全事件应急响应预案中,以下哪个步骤是最后执行的?

应急响应准备的工作内容主要有2个:一是对信息系统进行初始化的快照;二是准备应急响应工具包。在检测的时候将保存的快照与信息系统当前状态进行对比,是发现安全事件的一种重要途径。除对比系统初始化快照外,安全事件检测手段还包括部署入侵检测设备、流量监控和防病毒系统集中监控等。网络安全攻击事件可以分为拒绝服务类攻击、系统漏洞及恶意代码类攻击、网络欺骗类攻击、网络窃听类攻击、数据库SQL注入类攻击,针对每一类攻击事件都需制定相应的抑制与根除方法。

2024-03-11 19:57:50 996

原创 最新渗透测试面试题合集

网上整理的渗透测试⾯试问题⼤全,有些 HW ⾯试的题,已经收集好了,提供给⼤家。现在就是毕业季节,希望各位都能找到好⼯作。1、介绍⼀下⾃认为有趣的挖洞经历挖洞也有分很多种类型,⼀种是以渗透、⼀种是以找漏洞为主,如果是前者会想各种办法获取权限继⽽获取想要的的东⻄完成渗透⽬标,这类跟 HW 类似,⽬标各种漏洞不算,要有 Shell,服务器权限才给分,这才是最接近实战渗透,跟某部⻔有合作的话也是属于这种打击⽹络犯罪获得权限、传销数据、组织架构,服务器权限、等…2、你平时⽤的⽐较多的漏洞是哪些?

2024-03-09 10:32:08 1015

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除