自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 [DL]ChatGLM3

ChatGLM3训练数据更多样、训练步数更充分、训练策略更合理,在语义、数学、推理、代码、知识等不同角度的数据集上表现出色,目前在44个中英文公开数据集测试国内第一。

2024-01-10 11:06:13 1343

原创 [DL]GLM模型解读

本文主要介绍了ChatGLM的基础模型GLM模型,其中包括模型的背景、基础结构、预训练任务及核心代码解读。

2023-12-14 15:03:00 1846

原创 [DL]ChatGPT背后的技术

ChatGPT是一个聚焦于对话生成的大模型,能够根据用户输入的文本描述,结合历史对话,产生相应的只能回复。GPT3模型通过对大量文本数据的学习,能够流畅的生成对话,但是有时候的回复并不符合预期,OpenAI认为生成的回复应该具备真实性、无害性和有用性。此外,GPT3主要限制在于缺乏复杂任务的推理能力,例如完成代码和解决数学问题。

2023-09-18 14:24:42 155 1

原创 [DL]大模型简介

从技术上讲,语言模型(LM)是提高机器语言智能的主要方法之一。语言建模的研究此前最受关注的是预训练语言模型(PLM),基于Transformer架构的系列模型的提出,极大地提高了 NLP 任务的性能。并确立了pretrain和fine-tune学习范式作为解决NLP任务的主要方法。然而随着2022年11月ChatGPT的发布,大语言模型(LLM),简称大模型开始进入公众视野,成为研究热点。简单来说,大模型就是扩展的PLM,扩展的是模型大小以及数据大小。

2023-09-18 14:19:48 665

原创 [DL]CRF模型解读

CRF(conditional random field,条件随机场)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。想要理解CRF模型,需要先对概率图相关概念有所了解,并与HMM(Hidden Markov Model,隐马尔科夫模型)一起比较学习。(本文只解读思想、原理,不涉及求解过程)

2023-09-08 16:39:05 712

原创 [DL]深度学习常用优化方法

本文仅对常用几种优化方法进行简要介绍,细节实现可以在论文中学习。

2023-09-04 20:41:07 55

原创 [ML]算法常用评估指标

算法的评估指标是指评价算法优劣的标准指标体系,针对不同的学习任务,有不同的指标体系。在分类算法中主要有Accuracy(准确率)、Precision(精确率)、Recall(召回率)、Micro F1(微平均F1值)、Macro F1(宏平均F1值)、P-R曲线、ROC曲线等,上述提到的指标是在实际任务中最常用到的,因此对上述指标进行介绍总结。

2023-09-01 16:05:39 67

原创 [DL]词向量

词向量是自然语言处理中的一种表示方法,用于将单词转换成数值向量。在传统的文本处理中,计算机难以理解和处理文字,因为它们是离散的符号,难以进行数学运算。词向量的出现解决了这个问题,它将单词映射到一个连续的向量空间中,使得单词的语义信息可以以数值形式进行表示和处理。

2023-08-22 11:09:39 100

原创 [DL]BERT模型解读

BERT(Bidirectional Encoder Representations from Transformers)模型在论文中提出,BERT即双向的Transformer的Encoder表示。pre-training:利用无监督的方式对语言模型进行预训练;fine-tuning:通过监督的方式在具体语言任务上进行fine-tuning。

2023-08-17 20:24:20 183

原创 [DL]Transformer模型解读

Transformer模型在论文中提出。Transformer中抛弃了传统的CNN和RNN,整个网络结构仅由self-Attenion和Feed Forward Neural Network组成。

2023-08-16 21:19:36 130

原创 [DL]Seq2Seq模型解读

Seq2Seq是一种重要的RNN模型,也称为 Encoder-Decoder 模型,可以理解为一种N×M的模型。

2023-08-15 20:39:24 73

原创 [DL]残差网络ResNet

残差网络的残差网络的基本组成单元是残差块,残差块结构如下图,残差块分成两部分直接映射部分和残差部分。

2023-08-15 19:41:59 56

原创 [DL]Layer Normalization

BN取的是不同样本的同一特征进行归一化,LN取的是同一个样本的不同特征进行归一化。

2023-08-15 16:08:57 40

原创 [env]pytorch_lightning和pytorch对应版本问题

直接使用pip安装pytorch_lightning会安装最新版本的库,且自动更新环境中的torch版本,导致torch和cuda版本不兼容,无法使用torch。重装torch后,因为torch版本与pytorch_lightning版本不兼容,无法使用pytorch_lightning出现上述错误。pytorch_lightning官方文档。更多版本兼容情况,可以在官方文档查看。

2023-08-11 14:33:31 16187 3

原创 [DL]LSTM模型解读

LSTM起源于循环神经网络(Recurrent Neural Network,RNN)。RNN是一种用于处理序列数据的神经网络,它是根据人的认知是基于过往的经验和记忆这一观点提出的,即一个序列当前的输出与前面的输出也有关。

2023-08-10 19:28:49 141

原创 [DL]Batch Normalization

首先明确Batch Normalization的核心思想不是为了防止梯度消失或者过拟合,而是对数据空间/参数空间进行约束来增加鲁棒性,这种操作会带来一系列的性能改善,如加速收敛速度、保证梯度、缓解过拟合等。

2023-08-09 16:54:01 47

原创 [DL]梯度消失和梯度爆炸

梯度消失和梯度爆炸是深度神经网络训练过程中常见的问题。想要真正了解问题发生的本质,需要明确反向传播过程。

2023-08-02 16:47:00 50

原创 [DL]常见的激活函数

深度学习中的激活函数是指用于神经网络中每个神经元的非线性变换函数。它的作用是将神经元的输入(加权和)映射到输出,并引入非线性来增强网络的表达能力和适应性,从而使神经网络可以更好地拟合复杂的非线性模式。激活函数的主要目的是在神经网络中引入非线性变换。如果没有使用激活函数,神经网络的每层都只是做线性变换,多层输入叠加后也还是线性变换。使用激活函数可以使神经网络具有一定的非线性表达能力,从而可以更好地拟合非线性模式,提升神经网络的性能。

2023-08-01 10:47:23 55

原创 [DL]Dropout原理解析

Dropout的作用就是在前向传播时,让某个神经元以在概率p下停止工作。这样可以避免模型过于依赖某些局部特征,增强泛化能力。

2023-07-13 14:13:03 528

原创 [DL]Attention机制解读

Attention机制允许对依赖环境进行建模,不考虑它们在输入输出序列中的距离。

2023-06-29 14:20:07 100

原创 [DL]Bart模型解读

首先上述模型都是由transformer模型延伸而来的。GPT:是一种自回归( Auto-Regressive)的语言模型。Bert:是一种自编码(Auto-Encoding)的语言模型。Bart:结合了自回归和自编码模型。

2023-06-13 15:44:14 1070

原创 [DL]正则化为什么能降低过拟合程度

正则化即在损失函数中增加一个正则化项,该项可以看做是损失函数的惩罚项。是对损失函数中的某些参数做一些约束,使得参数的自由度变小。

2023-06-02 15:11:59 54

原创 [DL]过拟合与欠拟合

欠拟合:函数/模型过于简单无法学习到有效的数据规律,导致模型泛化能力较差,无法有效预测未知数据过拟合:函数/模型过于精确的拟合了边缘数据(特定数据),导致模型泛化能力较差,无法有效预测未知数据泛化能力(generalization ability)是指模型对未知数据(非训练集数据)的预测能力。

2023-06-01 11:27:52 72

原创 [project]BART模型输入特征融合

特征向量存储格式为numpy数组,将该numpy数组与Bart模型的输入拼接在一起。

2023-04-18 13:47:37 299 2

原创 [project]CCF大数据与计算智能大赛-小样本数据分类任务

CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。2022年,是第十届CCF BDCI。本赛题为大赛赛题之一,由智慧芽公司联合举办。本赛题为专利文本分类比赛。智慧芽作为国际领先的知识产权SaaS平台,根据用户的搜索习惯等因素,制定了一套新的专利分类体系。

2023-04-03 09:46:57 1008

原创 [vue]解决npm run后报错 Syntax Error: Error: PostCSS received undefined instead of CSS string

本地项目上传到服务器,npm run serve启动项目后,报错Syntax Error: Error: PostCSS received undefined instead of CSS string。

2023-03-30 10:59:38 5321 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除