自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Swift's Blog

Swift的个人博客

  • 博客(246)
  • 资源 (1)
  • 收藏
  • 关注

原创 DQN讲解

最近我组有同学在探索用RL落地营销场景的可能性,借此机会学习下RL。more。

2024-12-09 03:16:00 757

原创 python2.7安装tensorflow1.x

当前tensorflow官方已不再提供1.x版本的pip安装,尝试了网上多种解决方案后,最简单的就是换源。

2024-12-08 18:57:36 62

原创 Uplift Tree建模

决策树构建流程:more。

2024-11-25 01:57:47 986

原创 tensorflow获取tensor形状

【代码】tensorflow获取tensor形状。

2024-11-12 18:08:21 103

原创 tf1.x实现张量的梯度反转

【代码】tf1.x实现张量的梯度反转。

2024-10-17 22:02:05 196

原创 DANN & GRL

域自适应是指在目标域与源域的数据分布不同但任务相同下的迁移学习,从而将模型在源域上的良好性能迁移到目标域上,极大地缓解目标域标签缺失严重导致模型性能受损的问题。介绍一篇经典工作more。

2024-09-24 03:30:01 511

原创 Uplift Model离线评估指标

uplift建模难点在于无法获得个体的ground truth,因为它是反事实的。只能通过构造treatment和control两组镜像人群,对比两组人群的转化增量,来实现模型性能的评估。more。

2024-09-16 17:11:28 877

原创 M1 Mac安装Homebrew

M1的MacBook安装Homebrew方法:

2024-09-09 18:53:32 306

原创 点沙成硅的流程

将一粒沙子转化为芯片的过程是一个复杂而精密的制造流程。芯片制造始于原材料硅的提纯,然后经过多步骤的工艺,最终变成用于计算机、手机等设备的半导体芯片。

2024-08-19 11:42:24 248

原创 U-Net原理及代码实现

U-Net是医疗领域进行语义分割的利器,随着AIGC的爆火,U-Net已成为Diffusion Model的backbone,有必须详细记录下。more。

2024-08-08 03:13:45 653 1

原创 DSSM双塔特征交互

传统的DSSM双塔无法在早期进行user和item侧的特征交互,这在一定程度上降低了模型性能。我们想要对双塔模型进行细粒度的特征交互,同时又不失双塔模型离线建向量索引的解耦性。下面介绍两篇这方面的工作。more。

2024-07-09 01:42:56 1031

原创 Learn To Rank

在信息检索中,给定一个query,搜索引擎召回一系列相关的Documents,然后对这些Documents进行排序,最后将Top N的Documents输出。more排序问题最关注的是各Documents之间的相对顺序关系,而不是各个Documents的预测分最准确。

2024-07-07 19:50:15 663

原创 两种神经网络参数初始化方法

重点介绍一下Xavier和Kaiming初始化:more。

2024-06-21 01:59:24 431

原创 LLM Inference Performance Engineering

https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices

2024-06-12 01:17:05 416

原创 LLaMA2详解

llama系列训练和推理都是right padding:more。

2024-05-24 01:57:15 404

原创 GPU利用率

英伟达官方的GPU利用率的定义如下:GPUUtilrate=number of active SMnumber of total SM×100%GPU Util rate = \frac{number \ of \ active \ SM}{number \ of \ total \ SM} \times 100\%GPUUtilrate=number of total SMnumber of active SM​×100%上述代码片段将在单个流多处理器(SM)上启动指定的内核(线程)。根据常规理

2024-05-20 01:42:19 1322

原创 Attention Sink

论文发现自回归LLM存在的一个有趣现象:对于输入文本最靠前的少量几个token,无论它们在语义上与语言建模任务的相关性如何,大量的注意力分数都会分配给他们,如下图所示:more模型的前两层还能保持attention score更多分配给当前token附近位置的特性,而在其他层,靠前的几个token都会接受到大量的注意力。尽管这些token在语义上很可能并没有什么重要性,但它们却聚集了大量的注意力分数。出现这个现象的原因就是softmax操作。

2024-05-12 16:50:44 634

原创 RAG讲解

现有的LLM已经具备了理解、生成、逻辑和记忆能力,RAG(Retrieval Augmented Generation)则是为其套上外挂,使LLM能够访问训练数据来源之外的权威知识库,并生成领域特定的内容,而无须重新训练模型。more。

2024-05-12 15:04:25 346

原创 从loss角度理解LLM涌现能力

本文从预训练loss角度观察了模型涌现能力是如何发生的。其结论也给业界评估模型在下游任务上的性能提供了全新的视角,即预训练loss,而不是模型参数量、数据量、训练计算量。但本文并未从理论角度解释loss与涌现能力的关系,更多地是根据后验进行启发式分析,也未给出2.2的合理说明。但DL一直这么玄学,不是吗?

2024-05-12 02:12:12 1000

原创 SwiGLU激活函数

SwiGLU激活函数已经成为LLM的标配了。

2024-05-09 02:08:51 1331

原创 模型训练的显存占用分布

训练过程中,显存消耗主要有模型参数、梯度、optimizer状态值和中间激活值。

2024-05-05 17:41:26 249

原创 FP16与BF16区别

more二者都是占用16bit空间。模型训练时使用BF16和FP16都可以降低内存使用和传输量,提高训练效率。

2024-05-05 17:39:15 1713

转载 现代GPU内存分级结构

要实现CUDA高性能编程,就必须对GPU内存结构有深刻的了解。more。

2024-04-22 01:04:25 113

原创 显存大小&显存位宽&显存频率

more当你购买显卡的时候,需要根据你的应用场景,综合考虑显存大小和显存带宽。

2024-04-09 22:06:10 374

原创 转化延迟预估

转化数据延迟久,但实时反馈至关重要涉及到模型预估准度,进而影响客户成本。more现状:超过12h的转化被视为负例,12h以内的为正例,这样会导致模型低估。P转化∣点击未转化点击延迟≤12h的转化延迟12h的转化延迟≤12h的转化​。

2024-04-09 01:01:24 446

原创 Gumbel Softmax

Argmax是不可求导的,Gumbel Softmax允许模型能从网络层的离散分布(比如类别分布categorical distribution)中稀疏采样的这个过程变得可微,从而允许反向传播时可以用梯度更新模型参数。more。

2024-04-08 01:15:37 374

原创 PEFT-LISA

LISA是LoRA的简化版,但其抓住了LoRA微调的核心,即LoRA侧重更新LLM的底层embedding和顶层head。more。

2024-04-03 01:36:29 319

原创 大模型融合方法-DARE

LLM在SFT之后会产生大量的冗余参数(delta参数),阿里团队提出DARE方法来消除delta参数,并将其合并到PRE模型中,从而实现多源模型能力的吸收。mt∼Bernoullipδt1−mt⊙δtδtδt1−pθDAREt​δtθPRE​​Enotmask​​xEmask​pp∗x​传统的模型融合只是对神经元进行加权求和,这样会导致模型能力骤降。DARE方法通过dropout避免了这种问题。

2024-03-30 17:39:04 869

原创 多标签分类新建模方法

常见的多标签分类方法是同时生成多个标签的logits,然后接一个sigmoid激活函数做二分类。该方法简单直接,但忽略了标签之间的相关性。虽然业界针对该问题提出了很多解决思路,但大多是任务特定,通用性不强,也不够优雅。Transformer decoder倒是可以序列输出多个标签,但却加入了位置偏差。而标签之间是没有位置关系的,谁先谁后无所谓,只要输出全就行。这样也导致数据集不好构造。more。

2024-03-18 02:31:23 524

原创 GPT的实现细节

关于GPT的代码细节,这里梳理了一下:more。

2024-03-18 02:27:35 1066

原创 LLM长上下文外推方法

下面是一些提升LLM长度外推能力的方法总结:more。

2024-03-10 03:49:34 738

原创 YOLO v1讲解

YOLO是最经典的一阶目标检测框架,记录一下v1思路。more。

2024-03-08 02:49:22 866

原创 ViT的若干细节

ViT证明了Transformer架构在CV领域的可行性,以后Transformer将大一统各领域。NLP的成功经验非常有潜力迁移到CV领域,比如scaling law,大数据+大模型的范式将开拓出CV的新一片天地。大数据+大模型真的是既无脑又有效,通过这种方式让Transformer自己去学习到特定领域的归纳偏置。可以说Transformer下限比CNN低,但上限又是CNN无法企及的。

2024-03-03 18:54:58 904

原创 CUDA编程模型

参照数学坐标系,grid的规格是43,block的规格是32more对于CUDA编程模型,本质上还是要掌握并行编程思想。每一个矩阵元素运算,都是由一条线程执行。我们要做的就是找到线程坐标位置及其对应的矩阵元素,然后执行计算逻辑。const;if!printf;exit1;编译。

2024-02-29 03:27:08 433

原创 MIND解读

这篇paper的核心是胶囊网络,该网络采用了动态路由算法自动对用户历史行为序列进行聚类,提取出多个兴趣向量,代表用户的不同兴趣。当用户再有新的交互时,通过胶囊网络,还能实时的改变用户的兴趣表示向量,做到在召回阶段的实时个性化。more。

2024-02-28 03:01:00 905

原创 TDM检索技术讲解

召回的任务是从海量商品库中挑选出与用户最相关的topK个商品。传统的召回检索时间复杂度是ON,而阿里的TDM通过对全库商品构建一个树索引,将时间复杂度降低到OlogN。more。

2024-02-27 02:19:47 993

原创 新一代粗排系统COLD

为了让粗排支持交叉特征来提升模型性能,同时又为了降低引入交叉特征、复杂模型所带来的预估延迟和资源消耗,阿里团队提出了COLD,在模型效果和算力间取得了平衡。more。

2024-02-21 01:55:24 402

原创 FLIP解读

title: FLIP解读toc: trueFLIP由CLIP改进而来,其思想非常简单,通过在图片侧mask掉相当比例的patch(无须重构patch),实现速度和准确性的双重提升。more。

2024-02-07 02:14:11 553

原创 SENet在双塔中的应用

ENet并不能将user侧和item侧的特征交互提前或者使其获得更深层次的交互,user侧和item侧的特征交互仍然只发生在最后的内积那一步,这是由其双塔结构导致的。SENet的作用是提前将各侧的重要特征升权,不重要特征降权。

2024-02-06 01:50:51 484

原创 模型量化入门

量化已经是LLM部署和推理的必备环节了,在此了解一下:more。

2024-01-29 02:06:48 352

多界面传值

通过代理协议实现多个界面的传值

2017-08-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除