八股
文章平均质量分 60
C++ python
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
坠金
记性很差,写博客一是记录,二是交流分享,欢迎批评
展开
-
从一个简单的实际例子看并行处理
并行处理的定义介绍见另一篇博客(待更新)原创 2023-12-05 15:12:15 · 70 阅读 · 0 评论 -
python常用stl
注意 列表也可以像数组一样x[i], 但前提是列表非空(初始化过),否则会报错。的每个元素中提取用于比较的键,默认为。:指定带有单个参数的函数,用于从。关键字开头,后跟逗号分隔的。lambda 函数以。原创 2023-10-10 21:44:17 · 154 阅读 · 0 评论 -
const关键字
表示一些内容是不可变的或常量的。原创 2023-10-10 15:06:12 · 108 阅读 · 0 评论 -
常用时序模型
RNN (Recurrent Neural Network):GRU (Gated Recurrent Unit):LSTM (Long Short-Term Memory):Transformer:以搜广推为例:滚动滑窗采样:不均匀滑窗采样:过采样 (Oversampling):下采样 (Undersampling):权重调整:时间上下文采样:合成样本生成 (SMOTE: Synthetic Minority Over-sampling Technique):聚类:原创 2023-10-07 11:52:40 · 350 阅读 · 0 评论 -
NLP大模型
收集上述预训练语言模型 产生的数据来训练一个奖励模型,这个模型可以看作一个判别式的语言模型,输入是prompt和模型的回答,输出是人类的满意度,但是这里标注人员的任务是对生成的回答进行排序,比如说给定同一个prompt,让两个语言模型同时生成文本,然后比较这两段文本哪个好。给每个任务定义自己的Prompt,拼接到数据上作为输入,同时freeze预训练模型进行训练,在没有加额外层的情况下,随着模型体积增大,Prompt-tuning的效果越来越好,最终追上精调的效果。[2] 用代码进行预训练。原创 2023-10-07 11:39:36 · 450 阅读 · 0 评论 -
NLP:Attention和self-attention的区别
也就是说,查询、键、和值都来自于同一个地方,即输入序列和输出序列是相同的,即模型在生成每一个输出时都对自己的所有输入(包括自己)进行加权求和。核心思想是根据不同的上下文为不同的信息分配不同的注意力权重。2. Q,K,V需要遵循attention的做法。1. Q=K=V(同源)原创 2023-10-07 11:35:59 · 638 阅读 · 0 评论 -
优化器optimizer
用来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。总结从SGD到Adam做了哪些改进自适应的学习率、动量从SGD到Adam做了哪些改进Adamw 即 Adam + weight decate ,效果与 Adam + L2正则化相同,但是计算效率更高,因为L2正则化需要在loss中加入正则项,之后再算梯度,最后反向传播,而Adamw直接将正则项的梯度加入反向传播的公式中,省去了手动在loss中加正则项这一步。原创 2023-10-07 11:25:51 · 49 阅读 · 0 评论 -
梯度消失/梯度爆炸
梯度是损失函数在某点的导数,它表示损失函数在该点的变化率。负梯度方向是损失函数值下降最快的方向。反向传播是一种计算神经网络中每个权重损失函数梯度的方法。通过计算损失函数关于每个权重的梯度,我们可以知道如何调整权重以使损失函数最小化。(30条消息) 神经网络训练过程_坠金的博客-CSDN博客。原创 2023-04-04 14:14:48 · 69 阅读 · 0 评论 -
损失函数-基本
用方差容易出现多个局部最优解(即非凸函数),这样很难找到全局最优训练出好的模型,这样很依赖初始权值的起点。反之,用交叉熵就很容易找到全局最优,因为是代价函数是大部分情况是凸函数。原创 2023-10-07 10:52:39 · 27 阅读 · 0 评论 -
正则化
原理是在网络训练过程中,以一定的概率将一部分神经元随机置零,从而减少神经元之间的依赖性。(2)在反向传播时,将与前向传播时被关闭的神经元相应的梯度也置为0。,批量归一化,正则化,学习率调整,参数初始化,预训练,权重共享,模型集成。注意,对数据的操作,比如数据增强,本质也是对模型施加隐式的正则化。其中p是关闭概率,x是神经元输入,y是神经元输出。(1)在前向传播时,将某些神经元的输出随机置零。原创 2023-04-04 13:31:25 · 47 阅读 · 0 评论 -
EM算法
然后计算得到每个样本最近的质心,并把样本聚类到最近的这个质心,即 EM 算法的 M 步。EM 算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法,当然,如果我们的优化目标是凸的,则EM算法可以保证收敛到全局极大值,这点和梯度下降法这样的迭代算法相同。:利用E步骤中计算出的期望值,优化模型参数以最大化完整数据的似然函数(包括观察到的数据和E步骤中估算的缺失数据)。这两个步骤反复进行,直到模型的参数收敛(即参数的改变小于某个预定阈值)或达到预定的迭代次数。原创 2023-10-07 10:33:45 · 66 阅读 · 0 评论 -
海量数据处理
1000个瓶子编号1-1000, 每个编号会有一个10位的二进制数字。10只老鼠,依次喝掉所有二进制第一位是1的瓶子,第二位是1的瓶子。一周之后,死掉的老鼠说明毒药瓶子编号在对应二进制位置是1,否则是0。可以组合出毒药的编号。(这里补充介绍:BFPRT算法,也被称为中位数的中位数算法,是一个选取无序列表第k小元素的算法。方案二:大小为5000万的优先队列,内存要5千万,还是不够小。重复步骤 2 和 3,直到找到第 5千万大的数。方案一:快排,内存要一亿,还不够小。这类博客写的有的有问题,注意辨别。原创 2023-09-28 09:46:04 · 196 阅读 · 0 评论 -
从n个数中找第k大的数,考虑内存限制
面试题:从n个数中找出第K大的数-CSDN博客原创 2023-09-27 22:15:48 · 30 阅读 · 0 评论 -
范数Norm-衡量向量大小的方法
范数的值总是非负的,且当且仅当向量全为零时,范数的值为零。: 对于任意实数α,有: 对于任意向量x和y,有。原创 2023-09-27 22:12:41 · 102 阅读 · 0 评论 -
调度算法+等待/周转时间计算
周转时间 = 作业完成时刻 - 到达时刻等待时间 = 开始时刻 - 到达时刻平均时间就是用总时间除以作业个数。原创 2023-09-27 21:42:05 · 919 阅读 · 0 评论 -
AUC(Area Under Curve)
AUC有两种,ROC-AUC, PR-AUCROC由TPR, FPR画出PR由P和R画出注意 TPR==R。原创 2023-09-20 21:06:48 · 99 阅读 · 0 评论 -
构造函数,构造函数要设为虚函数吗
1.构造需要顺序,构造一个对象的时候,必须知道对象的实际类型,而虚函数行为是在运行期间确定实际类型的。编译器无法知道对象的实际类型,是该类本身,还是该类的一个派生类,或是更深层次的派生类。可以设,但没意义:C++的机制使得基类的构造函数在被调用时是按照静态类型进行调用的,而不是按照动态类型进行调用的。要:当派⽣类对象中有内存需要回收时,如果析构函数不是虚函数,不会触发动态绑定,只会调⽤基类析构函数,导致派⽣类资源⽆法释放,造成内存泄漏。静态类型指的是一个对象或表达式在编译时所声明的类型,也称为编译时类型。原创 2023-03-25 11:29:19 · 76 阅读 · 0 评论 -
虚与实:C++中的虚函数,纯虚,实例
因此,在构造基类时,虚函数表将指向基类的实现,而在构造派生类时,虚函数表将更新为指向派生类的实现。如果构造函数是虚函数,将无法保证正确的虚函数表设置,从而导致未定义行为。如果构造函数是虚函数,那么在构造派生类对象时,将不清楚应该调用哪个构造函数来初始化基类部分。纯虚函数是一个在基类中声明的虚函数,它没有定义具体的实现,而是强制派生类提供实现。析构函数可以(且通常应该)是虚函数,以确保在通过基类指针删除派生类对象时正确调用派生类的析构函数。注意,构造函数不能是虚函数,而析构函数应是虚函数,原因如下。原创 2023-03-21 19:29:45 · 338 阅读 · 0 评论 -
集成学习-树模型
偏差(Bias)描述的是预测值和真实值之差;方差(Variance)描述的是预测值作为随机变量的离散程度。原创 2023-09-11 09:22:17 · 333 阅读 · 0 评论 -
C++智能指针
Smart Pointer是C++中的一个重要概念,它是一种特殊类型的指针,能够自动管理指针所指向的动态内存的生命周期,避免内存泄漏和悬挂指针(指向已经被释放或者已经无效的内存空间的指针)等问题。C++中提供了三种智能指针:unique_ptr、shared_ptr和weak_ptr。原创 2023-03-22 08:47:03 · 534 阅读 · 0 评论