- 博客(217)
- 收藏
- 关注
原创 高效微调方法简述
通过在预训练模型中各层插入适配器模块(Adapters)实现对特定任务适应,不更新模型权重how:每个模型少量参数,低维-高维互相映射,使得模型更高效处理数据;包含残差结构保证原始输入信息不受损失;Adapter可以大模型不同层插入多个实例,针对不同场景进行微调,实现模型灵活适应性和多功能性;
2025-06-02 23:27:22
305
原创 demo_win10配置WSL、DockerDesktop环境,本地部署Dify,ngrok公网测试
首先要保证操作系统可以开启hyper-v功能,默认支持开启的版本为:Windows11企业版、专业版或教育版,而家庭版是不支持开启的,但是我们如果是家庭版,可以自行安装相关组件来开启hyper-v功能。
2025-06-02 21:46:13
1075
原创 相对熵、信息熵和交叉熵
what:交叉熵是信息论的重要概念;用于度量两个概率分布之间的差异性;其他相关知识:信息量:信息是用来消除随机不确定的东西;信息量的大小与信息发生的概率成反比;I(x)=−log(P(x)), p(x)表示某一事件发生的概率,log表示自然对数举例:信息量为0:“太阳从东边升起”信息量极大:”2018年中国队成功进入世界杯“信息熵:信息熵也叫熵,是用来表示所有信息量的期望;期望是每次试验结果的概率 乘以 结果的总和,因此公式如下:举例:..
2021-08-18 17:42:23
412
原创 XLNet学习:究极总结
目录XLNet:XLNet方法介绍:编码器-解码器的一体化Objective: Permutation Language ModelingIncorporating Ideas from Transformer-XDiscussion and AnalysisComparison with BERTComparison with Language ModelExperimentsPretraining and ImplementationAblation...
2021-05-11 01:39:12
1060
1
原创 知识蒸馏是什么?一份入门随笔__摘要
目录一、模型压缩背景二、 为什么叫蒸馏?三、与直接优化logits相比四、实验与结论一、模型压缩背景在实际应用中一般希望部署到应用中的模型使用较少的计算资源(存储空间,计算单元),产生较低的时延。然而深度学习的背景下,效果极好的方法一般会有两种方案:1. 使用过参数化的深度神经网络,再加一定正则化策略(dropout) 2. 集成模型(ensemble)将许多弱的模型集成起来; 然而部署时 我们希望的小模型,能达到和大模型一样或相当的结果;* 下文统一将要训练的小模型...
2021-05-04 00:31:11
440
原创 残差网络解决了什么,为什么有效?—摘要
1.动机:深度神经网络的“两朵乌云”一般认为,经过训练深层神经网络可以将数据特征逐层抽象,最终提取出完成任务所需要的特征/表示,最后使用一个简单的分类器(或者别的学习器),就可以完成任务;因此深度学习也被叫表示/特征学习;直观的理解,在非线性激活函数的加持下,更深层的神经网络拥有更大的假设空间,当然更有可能包含一个最优解;但是训练却是一个更大的难题;除了过拟合问题外,更深的神经网络更容易出现梯度弥散/爆炸问题和网络退化问题;梯度弥散:神经网络在反向传播时,如果i激活函数输...
2021-05-04 00:23:40
4446
2
原创 LSTM的巅峰理解笔记
Recurrent Neural Networks目录Recurrent Neural Networks一.The Problem of Long-Term Dependencies二. LSTM Networks三. The Core Idea Behind LSTMs四. Step-by-Step LSTM Walk Through五. Variants on Long Short Term Memory六. ConclusionRNN展开:RNN的实现很多任
2021-04-14 00:09:29
513
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人