自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 第九节 大模型

本文介绍了大模型的关键技术与训练方法。在模型架构方面,重点分析了专家混合模型(MoE)的两种路由机制、旋转位置编码(RoPE)的优势、多头潜在注意力(MLA)的低秩压缩特性,以及Swiglu激活函数和RMSNorm归一化的创新点。在训练方法上,阐述了强化学习的基本原理及其与PPO算法的关系,PPO通过限制策略更新幅度实现稳定优化,已成为大模型RLHF微调的主流方法。这些技术创新共同推动了大模型在参数规模、计算效率和训练稳定性方面的突破。

2026-03-11 21:00:13 366

原创 第八节 生成任务与大模型

本文介绍了生成任务的基本概念和实现方法。生成任务指输入序列后输出长度不定的序列,如问答系统。文章重点讲解了基于自学习的生成模型,分析了其串行错误问题,并提出用Masked Self-attention解决。通过上三角矩阵实现仅能看到前面输入的效果,避免"面向结果编程"。训练时使用标签并行计算,测试时则需串行输出。最后介绍了BeamSearch算法,并总结了需要掌握的5个关键点:Encoder/Decoder输入形式、Mask实现、cross-attention机制、损失计算及训练-测试差

2026-03-06 19:08:08 244

原创 第七节 self-attention自注意力机制

本文介绍了自然语言处理中的自注意力机制及其相关技术。首先阐述了文字向量化的必要性,指出RNN和LSTM在处理序列数据时的局限性,特别是LSTM通过遗忘门、输入门和输出门来优化长序列记忆。重点讲解了自注意力机制的优势,它能并行处理全局信息,通过query-key-value结构和位置编码解决语义歧义问题。最后介绍了Transformer架构,其编码器(如BERT)擅长特征提取,解码器(如GPT)擅长文本生成,并简要说明了BERT的预训练任务。全文系统性地阐述了从传统RNN到现代自注意力模型的技术演进。

2026-02-27 22:18:33 515

原创 第六章 深度学习与特征

本文介绍了深度学习中几种重要的学习范式。重点讲解了无监督学习的应用场景和典型方法,包括PCA降维、生成对抗网络(GAN)和自监督学习。GAN通过生成器与判别器的对抗训练生成逼真数据;自监督学习通过数据重构任务学习特征表示,如MAE模型。对比学习则通过拉近相似样本、推远不相似样本学习数据表征。这些无监督方法能有效利用大量无标签数据,结合少量监督数据进行微调,可显著提升模型性能。文章还回顾了有监督、无监督和半监督学习的基本概念,为理解深度学习中的特征学习提供了基础框架。

2026-02-25 22:46:03 609

原创 第五章 图像分类任务

本文介绍了卷积神经网络(CNN)在图像分类任务中的应用。首先对比了全连接层与卷积层的区别,重点讲解了卷积核运算、特征图计算、Padding和感受野等核心概念。通过公式推导了特征图尺寸的计算方法,并介绍了池化层(pooling)的作用。文章详细解析了三种经典CNN模型:AlexNet(5个卷积层+3个全连接层)、ResNet(创新残差连接结构)和VGG(深层小卷积核网络),均提供了完整的PyTorch实现代码,包括参数计算和网络结构分析。这些模型通过卷积-池化-全连接的组合,实现了高效的图像特征提取和分类功能

2026-02-19 13:07:08 613

原创 第四章:回归实战

本文介绍了神经网络项目的实战流程,以一个新冠病毒感染人数预测项目为例。主要内容包括:1. 数据准备部分:划分训练集、验证集和测试集,进行数据标准化处理,并使用SelectKBest方法筛选关键特征;2. 模型构建部分:实现包含两个全连接层的简单神经网络,使用ReLU激活函数;3. 训练优化部分:采用SGD优化器,引入L2正则化防止过拟合,并实现训练验证流程;4. 特征工程:演示了特征选择和主成分分析(PCA)的应用。项目完整展示了从数据预处理到模型训练评估的神经网络开发全流程。

2026-01-25 11:15:08 1023

原创 第三章 线性回归实战

本文实现了一个基于PyTorch的线性回归模型,用于根据人的长相、性格、财富、内涵四个特征预测恋爱次数。代码包含数据生成、模型训练和可视化三部分:1)使用create_data函数生成500个带噪声的样本数据;2)采用小批量随机梯度下降优化器进行50轮训练;3)通过MAE损失函数评估模型性能。实验结果显示,学习率设为0.3时能较好平衡收敛速度和稳定性。最终模型参数接近预设的真实值(w=[8.1,2,2,4],b=1.1),并可视化展示了第四个特征与目标值的关系。代码演示了完整的线性回归实现流程,包括前向传播

2026-01-18 19:48:09 259

原创 第二章:多层神经网络与python基础

本文介绍了深度学习中的神经网络核心概念,包括神经元、激活函数(如Sigmoid和ReLU)的作用,以及全连接神经网络的结构。通过Python代码示例展示了神经网络在拟合非线性数据时的应用,并对比了不同激活函数的效果。文章还讲解了Python基础语法,包括数据类型、控制结构、类与继承,以及NumPy和PyTorch库的矩阵操作。

2026-01-16 20:09:20 844

原创 第一章:深度学习基础

仅仅记录自己准备复试的一些项目情况和重要知识点。刷到的朋友不要喷我写的不好。

2026-01-14 22:27:21 779

原创 编程实现按每5个数据一行方式输出101~200之间的所有素数

用C语言编程实现按每5个数据一行方式输出101~200之间的所有素数。

2024-06-01 17:26:28 370

原创 编程实现按每5个数据一行方式输出所有能被3和5整除,但是十位不是0的3位整数

C语言应用场景

2024-06-01 17:08:11 480

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除