学习笔记
文章平均质量分 77
记录学习心得
Undefined游侠
这个作者很懒,什么都没留下…
展开
-
EfficientAI tinychat-tutorial
在按照文档下载好模型和代码后,在transformer文件夹执行结果如下通过./chat查看了一下效果,着明显是个不工作的gpt。原创 2023-12-21 16:37:04 · 89 阅读 · 0 评论 -
EfficientAI Lab: 大模型AWQ量化
AWQ(Activation-aware Weight Quantization)的核心是基于通道级别的尺度缩放(channel-wise scaling),来保护显著权重。而值得注意的是,是通过观察“activation”,而不是权重,来选择缩放的大小。此外,该方法不需要进行反向传播和重构,部署容易。左图表达Round-to-nearest方法的策略和效果,PPL非常高(不好);中间的图表示作者的key observation,那就是保留一部分权重;原创 2023-12-04 20:27:53 · 2130 阅读 · 3 评论 -
EfficientAI Leacture 12: Transformer and LLM
对应的问题也显而易见,那就是词汇量很大时,one hot所占用的词汇大小非常大,而如果用float的形式,将大大减小数据的大小。在CNN中,我们会试图把每一个batch进行norm处理,而在transformer中,我们希望把Feature进行norm处理,也就是对应的word。不管是RNN,CNN,都遇到类似的问题,那就是无法保证足够大的感受域。首先,回顾了一下以往的NLP任务,可以分为Discriminative tasks和 Generative tasks。如何理解 P, Q, V。原创 2023-12-02 20:41:59 · 58 阅读 · 0 评论 -
EfficientML Lab2
这次作业工作量还是比较大的,值得review的东西还挺多。作业目标里提到了从介绍里可以看到这次作业主要关注两种方法: K-means Quantization 和 Linear Quantization。基于这两种方法, 我们又进一步理解 QAT, integet-only inferernce 这些细节。我也希望通过这次作业,我能回答如下问题1. 每种量化方式对于inference,training各自有什么影响2. QAT这个概念具体是怎么操作的?原创 2023-10-29 22:25:37 · 69 阅读 · 0 评论 -
EfficientAI tinychat tutorial 2
在完成了本次作业后,可以理解,这次作业是把矩阵乘法的优化加速方式和大模型推理时常用的操作结合,比如引入block和对应的scale的概念,以及4bit存储weight,8 bit存储activation的方式。从下图可以看到,loop unrolling并没有看到有效的效果提升,然后,也没有cuda对应的加速策略。而最后,相比于原始的方法,速度提高了10倍,还是一个相对比较满意的量级。首先,通过图来表达,常规的矩阵乘法和本次作业涉及的乘法的加速策略。总之,这些让我们应用起矩阵乘法的加法时更加困难。原创 2023-12-21 22:26:06 · 69 阅读 · 0 评论 -
EfficientAI Lab3: Neural Architecture Seach
OFA这个方法从方案介绍上来说,似乎相比与之前(2020)的方法效率明显提升。而就我的使用来说,我对于NAS使用的两种方法,尤其时evoluation search,没有真正理解,从而影响了我对于它的评价。而关于它的accuracy predictor,我的质疑的地方在于,这样的accuracy predictor数据集的获取成本是不是也很高。此外,这个策略据说可以推广到各类网络中,但是真的在推广后,能够展现比较好的性能吗?TODO。原创 2023-11-24 14:28:54 · 79 阅读 · 0 评论
分享