自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(526)
  • 资源 (10)
  • 收藏
  • 关注

原创 A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding

来源Q. Wang, S. Wang, H. Fang, L. Chen, L. Chen and Y. Guo, “A Model-Driven Deep Learning Method for Normalized Min-Sum LDPC Decoding,” 2020 IEEE International Conference on Communications Workshops (ICC Workshops), Dublin, Ireland, 2020, pp. 1-6, doi: 10.1

2020-09-07 14:09:38 956

原创 每日强化学习

20200901强化学习阅读:https://blog.csdn.net/qq_30615903/article/details/80739243

2020-09-01 15:23:39 133

原创 Relation extraction文章

Others2018No.FigureTitleAuthorsPub.Links5CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionKun Ho Kim, Oisin Mac Aodha, Pietro PeronaCVPR 2018 (Spotlight)paper4[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xk

2020-06-12 07:58:29 824

原创 凸优化之内点法

Convex Optimization Stephen Boyd Department of Electrical Engineering Stanford University 第11章本文为笔者结合原书及博客https://blog.csdn.net/dymodi/article/details/46441783 记录自己相关解释原始问题原始问题对应的拉格朗日公式为:利用障碍函...

2020-04-05 11:37:35 1750

原创 GloVe: Global Vectors for Word Representation必记

关于算法原理参考:下面是Relation with skip gramskip gram:接下来在整个corPus 中训练:但在vast corpus 难以求所有的Qi,jQ_{i,j}Qi,j​,采用近似但对于两分布中的交叉熵损失是有弊端的:即低概率高权值并且上式中的Qi,jQ_{i,j}Qi,j​还是难以normalized,因此不归一化带来的问题是Qhat,Pha...

2020-03-04 11:41:32 236

原创 grahp attention networks(GAT 学习必记)

深入理解图注意力机制向往的GAT(图注意力模型)

2020-02-20 15:12:26 607

原创 semi -supervised classification with graph convolutional networks学习必记

1 主要解决的问题半监督学习:用于少量节点标签未知,例如文本、citation network、知识图谱分类2 主要思想采用图卷积中的一阶局部近似(即K=1),这部分的理解可以参考Chebyshev多项式作为GCN卷积核当K=1 时有两个参数,模型scales linearly in the number of graph edges ,同时可以表征局部图结构和节点的特征:3. 半...

2020-02-19 14:27:03 382

原创 Convolutional Sequence to Sequence Learning学习心得

为什么使用CNN学习序列表示和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如下图。和RNN相比,CNN产生的背景向量固定并且通过stacking 可以使 contex size 更大,如上图。Hierarchy representation如图1,只需要三次CNN operation ,而需要 7 次 r...

2020-02-18 16:25:43 635

原创 Sequence to Sequence Learning with Neural Networks学习笔记

论文的主要创新点提出了序列到序列的学习方法提出的背景DNN的限制:输入和输出向量维度固定,实际上很多序列问题中的序列长度不是已知先验单个RNN 的限制:输入和输出等长,且要一一对齐且对齐已知,无法应用到输入输出不等长且对应关系为非montonic解决方案两个RNN理论可行一个负责将输入充列map 为固定大小的vector(背景向量,含有整个输入句子的信息),另一个RNN将背景向列...

2020-02-17 16:44:20 325

原创 Attention Is All You Need(Transformer )

今天是2020年2月1日,笔者学习了Attention Is All You Need(Transformer )论文,可以在sequence to sequence 模型中用multi head self -attention 代替RNN,可以并行计算输出,其中multi head 的作用可以集成不同的上下文attention,由于knowledge leve有限,代码层面有待学习...

2020-02-01 16:54:11 166

原创 机器学习每日阅读更新

方差、偏差与欠拟合及过拟合

2020-01-30 12:54:25 167

原创 自然语言处理(机器翻译IBM模型 系列)

机器翻译方法概述直接转换法基于规则的翻译方法基于中间语言的翻译方法基于语料库的翻译方法- 基于事例的翻译方法- 统计翻译方法- 神经网络机器翻译基于规则的翻译过程分成6个步骤:(a) 对源语言句子进行词法分析(b) 对源语言句子进行句法/语义分析© 源语言句子结构到译文结构的转换(d) 译文句法结构生成(e) 源语言词汇到译文词汇的转换(f ) 译文词法选择与生成...

2019-12-25 16:29:35 3705

原创 概率图模型

例对于5节点,给定1和2,节点5和3,4都独立

2019-12-23 10:01:45 159

原创 【Deepseek学习大模型推理】MOONCAKE: A KVCache-centric Architecture实验部分(下)

如前所述,根据Kimi的历史统计数据,MOONCAKE在A800和H800集群上分别实现了比基于vLLM的原有系统多处理115%和107%的请求量。具体而言,我们测量每个请求的首令牌生成时间(TTFT)和尾部延迟(TBT),其中TBT通过计算最长10%的token到达间隔的平均值确定。如§2所述,TTFT阈值设为30秒,TBT阈值根据场景分别设为100 ms、200 ms和300 ms。若请求的TTFT与TBT均低于各自阈值,则视为有效请求,有效请求占总请求的比例定义为有效请求容量。

2025-04-25 12:09:09 480

原创 【Deepseek学习大模型推理】MOONCAKE: A KVCache-centric Architecture调度(中)调度

如图2所示,

2025-04-23 17:33:13 594

原创 【Deepseek学习大模型推理】MOONCAKE: A KVCache-centric Architecture 第一部分引言部分

作为模型即服务(MaaS)提供商,Kimi [5] 的核心目标之一是解决一个包含多重复杂约束的优化问题:优化目标是最大化整体有效吞吐量(直接影响收入),而约束条件则体现为不同层级的 SLOs。该平台以 KVCache 为中心,采用分离式架构——不仅将预填充(prefill)和解码(decoding)集群解耦,还通过高效利用 GPU 集群中未被充分利用的 CPU、DRAM、SSD 和网卡(NIC)资源,构建了分离式 KVCache。我们的分析基于表1的符号定义,并结合LLaMA3-70B的具体参数。

2025-04-23 15:42:43 585

原创 【DeepSeek 学习推理】Llumnix: Dynamic Scheduling for Large Language Model Serving实验部分

测试平台。我们使用阿里云上的16-GPU集群(包含4个GPU虚拟机,类型为ecs.gn7i-c32g1.32xlarge)。每台虚拟机配备4个NVIDIA A10(24 GB)GPU(通过PCI-e 4.0连接)、128个vCPU、752 GB内存和64 Gb/s网络带宽。模型。我们以流行的LLaMA模型族[57]为实验对象。测试两种规格:LLaMA-7B(单GPU运行)和LLaMA-30B(通过张量并行在单机4个GPU上运行)。模型采用常见的16位精度。

2025-04-22 15:59:42 970

原创 【DeepSeek 学习推理】Llumnix: Dynamic Scheduling for Large Language Model Serving

为此,我们提出了Llumnix ——一种针对LLM服务的系统,它通过跨多个模型实例的运行时动态重调度 来应对异构且不可预测的请求。评估表明,与现有最先进的LLM服务系统相比,Llumnix将尾延迟降低了一个数量级,高优先级请求加速达1.5倍,且在保持相似尾延迟的情况下实现高达36%的成本节约。重调度通过响应请求实际内存增长,补充了初始调度的不足。在大多数时间段内,集群总空闲内存足以容纳至少三个实例(有时全部)的排队请求,但请求仍因单实例空闲空间不足而排队,这既揭示了碎片化现象,也表明。

2025-04-22 12:14:54 642

原创 【DeepSeek]20250417学习FP8 ,H100架构

例如,假设两个FP8数相乘后的结果需要更多的位数来表示,这时候如果立即转换为FP8来累加,可能会导致精度损失或溢出。在最终存储结果时,可能再将其转换为较低的精度(如FP16或FP8),但中间过程的累加器保持高精度可以提升整体计算的准确性。如果输入矩阵是FP8,那么乘法操作的结果会是FP8乘以FP8的结果。两个8位浮点数相乘的结果可能超过8位的表示范围,所以需要扩展精度来保存中间结果。例如,在计算C = A*B时,每个元素的计算是A的行元素与B的列元素对应相乘,然后将这些乘积相加得到C中的一个元素。

2025-04-17 10:58:16 179

原创 【DeepSeek学多线程】std.thread用法,关注变量声明周期

2025-04-15 11:36:18 116

原创 cuda 学习日记

https://zhuanlan.zhihu.com/p/12481535419

2025-04-10 15:56:49 395

原创 【cuda】通过矩阵转置分析bankConflict

https://zhuanlan.zhihu.com/p/479700213https://zhuanlan.zhihu.com/p/692010210https://zhuanlan.zhihu.com/p/4746910252

2025-04-08 17:47:37 75

原创 【Deepseek 学Cuda】double buffer 中涉及到全局内存到共享内存的搬运

asmvolatile::asmvolatile::asmvolatileasmvolatile学习double buffer 优化矩阵乘法, 看到了指令性的东西。

2025-04-03 11:04:37 417

原创 【deepseek】 学cuda 基于WMMA的半精度矩阵乘法(HGEMM)

难点在于划分warp。涉及三次划分warp。全局内存到共享内存如何划分warp?利用TensorCor 即wmma 接口实现16*16 矩阵相乘时,如何划分warp?将计算结果,写回全局内存,怎样划分warp 实现并行?这三次划分warp 可以独立的划分。原因在于,三次操作间已经__syncthreads()同步过了。代码中, 后两次划分warp方式可以保持一致。笔者学习过程中,对数据搬用划分可以方便理解。刚开始以为实现矩阵相乘时计算时warp的划分要和搬运保持一致,理解了一会儿。

2025-04-02 11:27:01 454

原创 【Deepseek 学投机推理】Sequoia

L40 GPU的卸载场景中 ,Llama2-70B模型的推理延迟可降低至0.56秒/标记 ,而当前最先进的卸载系统(如DeepSpeed-Zero-Inference [2])的延迟为5.5秒/标记,Huggingface Accelerate [16, 45] 的CPU卸载API则高达11秒/标记。在此,我们回顾基于树的推测解码方法。具体而言,我们将讨论现有方法如何选择推测树的结构(第2.1节)、其用于采样与验证标记树的算法(第2.2节),以及这些方法如何自动选择标记树形状(第2.3节)。

2025-03-31 11:04:15 692

原创 【DeepSeek学C++】移动构造函数

静态成员属于类本身,而非静态成员属于类的每个实例。因此,当移动一个对象时,静态成员并不属于对象实例的一部分,所以不需要移动。移动操作是针对对象实例的,所以只处理非静态成员。接下来,用户可能需要具体的例子来理解这一点。例如,如果有类中包含静态成员变量,移动操作不会去处理它,因为静态成员是所有实例共享的,移动一个实例不会影响其他实例的静态成员值。

2025-03-28 17:23:33 1134

原创 【deepseek 学c++】weakptr引用场景

std::weak_ptr 是 C++ 中与 std::shared_ptr 配合使用的智能指针,它本身不拥有资源的所有权,仅观察资源的状态,主要用于解决 shared_ptr 的循环引用问题和临时访问共享资源的需求。以下是 weak_ptr 的典型应用场景和核心价值:!

2025-03-27 17:14:47 295

原创 【Deepseek 学c++】再谈shred_ptr 多重控制块问题

当 ConcreteTask::execute 调用 getSharedThis() 时,会生成一个新的 shared_ptr,其控制块与原 task 的控制块独立。任务完成时,scheduler 持有的 task 和回调中的 shared_ptr 指向同一对象但属于不同控制块,导致对象被重复释放。正确实现:使用 enable_shared_from_this。错误实现:直接使用 this。

2025-03-27 12:23:59 329

原创 【DeepSeek学C++】shared_ptr学习

shared_ptrshared_ptr本身是一个对象,通常包含两个指针:一个指向被管理的对象,另一个指向控制块。控制块包含引用计数、弱引用计数以及可能的删除器等。当创建shared_ptr时,控制块会被动态分配,或者如果使用make_shared,可能会将对象和控制块分配在同一块内存中。用户提到“&a是A类对象的地址吗”,这里需要明确区分shared_ptr对象本身的地址和它管理的对象的地址。

2025-03-27 11:42:27 584

原创 【DeepSeek 学c++】dynamic_cast 原理

用于向下转化。父类引用指向指类对象假设父亲是a, 子类是b.子类对象A* pa 父类引用指向子类对象,那么向上转化 Apa = pb 这个是自动完成的,隐式转化,不需要dynamic_cast向下转化指的是Apa = new B。这个是指向子类对象的父类引用, 转化为子类引用总结就是 父类 向下转化为子类, 但是父类指针本身是指向子类的。而不是说指向父类的指针转化为指向子类的指针,这个是无法转的。

2025-03-21 17:30:33 977 1

原创 【deepseek 学c++】decltype

rrtetred

2025-03-21 16:22:48 102

原创 【DeepSeek学C++】移动构造函数

首先,str是一个普通的string对象,然后通过std::move(str)将其转换为右值引用,赋值给r。但需要注意的是,虽然r是右值引用类型,但它本身是一个左值,因为它有名字。也就是说,当使用r的时候,它实际上是一个左值,尽管它的类型是右值引用。根据C++的标准,当用一个左值来初始化对象时,如果该左值的类型是右值引用,那么它会被视为左值,所以这里会调用拷贝构造函数,而不是移动构造函数。为了验证这一点,我可以考虑强制将r转换为右值,比如使用std::move®,这时候就会调用移动构造函数。

2025-03-20 23:02:52 227

原创 【DeepSeek 学c++】全局变量初始化

【代码】【DeepSeek 学c++】全局变量初始化。

2025-03-20 22:53:22 95

原创 【DeepSeek 学C+】effective modern c+ 条款七 初始化

C++的One Definition Rule(ODR),即每个变量只能有一个定义。类内的声明只是告诉编译器有这个变量存在,但实际的内存分配必须在一个翻译单元中完成。这样做的原因是为了避免重复定义,确保所有使用该静态变量的地方都引用同一个实例。

2025-03-20 22:15:48 387

原创 【DeepSeek学C++】 effective modern C++第33条款

等价于auto x = 10。x 是左值类型 , x 推到为int当参数声明为auto x时,无论传入的是左值还是右值,x在内部都会变成具名左值。这个问题涉及到C++中的值传递机制和左值/右值的概念左值和右值的基本定义。左值是指有持久状态的对象,可以取地址的,比如变量名、解引用的指针等。右值则是临时对象,比如字面量或表达式的结果,它们通常无法取地址,生命周期短暂。当函数参数按值传递时,不管是左值还是右值,参数都会被拷贝或移动到函数内部的变量中。这时候,这个内部变量是一个具名的变量,也就是左值。

2025-03-20 21:14:59 285

原创 [Deepseek 学c++]初始化捕获与按值(显式与隐式)捕获傻傻分不清

注意以上说法不对。!相当于在lambda函数体中加了一个新的变量auto &a, 其初值为函数作用域内的 static int a;引用,对新的a操作实际还是修改的是static int a相当于 lambda函数体中加了一个新的变量 auto a, 其初值为外部的 static int a;操作是新的a。

2025-03-20 16:58:23 449

原创 【Deepseek 学C++】线程池

此时锁仍然被持有,所以当工作线程被唤醒后,它们会尝试获取锁,但由于锁还在EnqueueTask中持有,所以工作线程需要等待锁释放后才能继续执行。因此,notify_one是在锁释放之前调用的。所以回答用户的问题:锁的释放是在condition.notify_one()之后,因为unique_lock的析构是在函数返回时,而notify_one是在析构之前调用的。根据C++标准**,调用notify_one不需要持有锁,但通常建议在修改条件变量相关的共享状态后,先解锁再通知,以避免唤醒的线程立即阻塞**。

2025-03-19 17:42:16 866

原创 【大模型推理】

ORCA: A Distributed Serving System for Transformer-Based Generative Models 作者里面讲的很不错。

2025-03-14 16:02:01 366

原创 【Deepseek学习大模型推理】 MLA中矩阵吸收原理。

有了以上基础,再理解里面的吸收原理。

2025-03-12 11:29:49 202

原创 【Deepseek C++】std:function 内部实现

l详ambda的类型是唯一的,每个lambda表达式都有不同的类型,所以必须通过decltype来获取类型,并在构造时传入该lambda的实例。,因为如果lambda有捕获,它的类型将包含捕获的内容,这可能导致无法作为模板参数使用。因此,在示例中应该使用无捕获的lambda。详细解释std::function 内部实现的多态机制。可以以lambda 表达式的形式给出嘛。初始化捕获, 引用捕获,值捕获区。lambda 表达式底层实现。5. 实现深拷贝的核心代码。

2025-03-01 11:44:09 280

模拟通信中信号角度的调制与解调

5.8基于Labview实现FM调制与检调 5.8.1相应参数设置 载波频率:50 幅度:2 调制信号频率:50 幅度:2 5.8.2 labview 程序框图 5.8.3正弦波调相

2018-04-20

labview实例

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

MATLAB频谱图

MATLAB关于频谱分析自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

电容振荡器

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

小功率调幅发射机

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

电子线路课程设计

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

小功率调幅发射机仿真报告

自行设计一个小功率调幅发射机,要求技术指标为: 载波频率 ,频率稳定度不低于10-3 输出功率 负载电阻 输出信号带宽 (双边带) 残波辐射 ,系指除基波辐射以外的谐波辐射、寄生辐射和相互调制产生的任何残波辐射功率的最大容许值。 单音调幅系数 ;平均调幅系数0.3 发射效率

2018-03-18

交通灯VHDL设计

很好用的交通灯,伴有铃声的程序,实现紧急状况的显示,

2017-12-27

labview 2016y英文版安装及破解教程

详细的介绍了LabVIEW安装过程中遇到的问题以及解决方案,以及可能出现版本的不兼容的问题的操作

2017-12-27

数字滤波器

数字滤波器设计及应用综合设计,各种matlab,各种程序

2017-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除