LLM
文章平均质量分 54
分享基础与前沿的大语言模型
思考实践
以身作则,静待花开。长期主义,宇宙主义,价值导向。多角度分析问题,积极解决问题,不要停下来。THU-phd,CAS-master.
展开
-
关于MoE的简约挖掘点笔记
MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。更合理的分配token到expert,以及Gate更合理的Combine结果。MoE指标除了任务精准度还有,提升专家激活率。#可以参考这篇文章搞实验指标。原创 2024-07-31 16:40:17 · 169 阅读 · 0 评论 -
Mixture of Experts with Attention论文解读
注意这篇论文没有代码,文章所谓的注意力是加性注意力,找scaled dot-product的伙计可以避坑了,但还是有值得学习的地方。原创 2024-07-31 16:07:13 · 382 阅读 · 0 评论 -
Union工作的图的解释
传统范式的局限性多个单独模型复杂且难以管理,每个任务需要独立训练。难以适应多样化的数据和应用场景。统一范式的优势“Union”模型作为基础模型,通过一次性预训练和适应性微调,能够处理多种时序任务。简化了模型的架构,提高了效率和适应性。原创 2024-07-28 16:03:25 · 391 阅读 · 0 评论 -
UniTS代码解读
总结来说,UniTS模型中不同类型的token的embedding方式都是通过线性层实现的,具体实现细节在。在预训练过程中用于生成掩码序列,并在模型训练时帮助模型学习如何预测被掩码的位置。原创 2024-07-26 08:44:17 · 427 阅读 · 0 评论 -
如何理解token在各个领域CV、NLP、TSF?#Tokens in Deep Learning
原创 2024-06-02 20:05:08 · 167 阅读 · 0 评论 -
通用时序大模型任务统一的任务定义#UniTS: Building a Unified Time Series Model
对问题的定义写的很好原创 2024-05-19 16:34:41 · 221 阅读 · 0 评论 -
大模型在医疗领域的应用
XrayGLM: XrayGLM在医学影像诊断和多轮交互对话上显示出了非凡的潜力。 (gitee.com)原创 2024-03-26 10:14:14 · 218 阅读 · 0 评论 -
PCA等、Compression is Intelligence.
ChatGPT是如何产生心智的?|神经元|神经网络_网易订阅 (163.com)Compression For AGI:压缩即智慧,LLM是最好的无损压缩器 - 知乎 (zhihu.com)原创 2024-02-03 16:09:33 · 416 阅读 · 0 评论 -
语音大模型资料
The workflow for facilitating interactions between LLMs and external entities using the Prompting Framework 大模型应用开发资料: 语音、检索、生成、视觉、微调、训练、推理、部署...... - Gitee.com原创 2023-12-22 14:29:52 · 460 阅读 · 0 评论 -
In Context Learning 详解#(转载)
大型语言模型(LM)能够通过对几个输入标签对进行条件调节,并对新的输入进行预测,仅通过推理就可以进行明文学习来执行新的任务。然而,对于模型是如何学习的,以及演示的哪些方面有助于最终任务的性能,人们知之甚少。在这篇论文中表明,事实上,不需要在演示中随机替换标签,这几乎不会影响一系列分类和多choce任务的性能,在包括GPT-3在内的12个不同模型中始终如此。相反发现演示的其他方面是最终任务性能的关键驱动因素,包括它们提供了以下几个例子:(1)标签空间(2)输入文本的分布(3)序列的整体格式。转载 2023-12-18 11:14:57 · 863 阅读 · 0 评论 -
VIMA中有价值的问题 #持续更新
对于以对象为中心的表示,如第4节“标记化”中所述,我们还对边界框坐标进行编码。然后将这些特征与对象的图像特征融合以提供对象标记。原创 2023-12-18 10:15:52 · 974 阅读 · 0 评论 -
关于LLM你或许不知道的事情-Scaling Laws//(转载)
介绍一些Scaling Laws - 知乎 (zhihu.com)转载 2023-12-16 20:46:59 · 146 阅读 · 0 评论 -
关于LLM你或许不知道的事情-为什么大语言模型的训练和推理要求比较高的精度,如FP32、FP16?浮点运算的精度概念详解//(转载)
这些格式在精度和内存使用之间提供了权衡,像FP16、BF16和FP8这样的低位格式允许更快的计算和减少的内存使用,但是以精度为代价。让我们通过一个简单的比喻来理解精度的概念。在大语言模型的训练和应用中,计算精度是一个非常重要的概念,本文将详细解释关于大语言模型中FP32、FP16等精度概念,并说明为什么大语言模型的训练通常使用FP32精度。在大语言模型的训练和应用中,计算精度是一个非常重要的概念,本文将详细解释关于大语言模型中FP32、FP16等精度概念,并说明为什么大语言模型的训练通常使用FP32精度。转载 2023-12-09 12:14:26 · 1675 阅读 · 0 评论 -
工业异常检测大模型-Myriad:利用视觉专家进行工业异常检测的大型多模态模型 # 思路值得借鉴(海纳百川-有容乃大)
现有的工业异常检测(IAD)方法可以预测异常检测和定位的异常分数。然而,多轮对话详细描述,例如工业异常的颜色、形状和类别。#(替换为线圈的xxx)最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用 LMM 中缺乏有关异常检测的知识,而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。(计算资源?原创 2023-12-09 00:29:08 · 1092 阅读 · 0 评论 -
具身智能创新方向研究
LLM:chatgpt不知道自己不知道,如何缓和这个问题,还有幻觉问题。Simulation_Env:通用性(Unity)、方便易用性。Robots: 效率问题、精确问题。VLM:效率问题、精确问题。现实问题:成本、等等。原创 2023-11-15 01:18:22 · 333 阅读 · 0 评论 -
【免费生产力工具】CodeGeeX: AI代码自动补齐、对话、自动注释
这个是官网,工程好像是开源的,生态不错。清华校友确实强,我是菜菜。我是在vscode里面装的插件,直接搜索就行。多的就不bb了,大家试试吧,确实好用。原创 2023-11-05 16:22:14 · 363 阅读 · 0 评论 -
【LLM】预训练||两句话明白儿的底层原理
预测遮挡单词。原创 2023-11-03 11:04:09 · 471 阅读 · 0 评论 -
【LLM】大语言模型高效微调方案Lora||直击底层逻辑
敬请期待...原创 2023-11-02 16:07:50 · 774 阅读 · 0 评论 -
【LLM】大模型中的温度系数temperature是啥玩意||底层逻辑
大佬两句话就讲明白了,厉害~原创 2023-11-02 14:55:32 · 403 阅读 · 0 评论 -
Nature工作-通用时序(PHM)大模型//(构思中)
① Main_paper 9页不到,甚至不到顶会的页数,并且附录大部分都是预测结果的可视化,或者一些根据数据集或者任务做的特征图,然后还有Training time Running time这种图。② 图做得确实很漂亮。③ 背景立意很好,Winter Olympics(hh),公式虽然不是理论,不过该给出来的页给出来了。我感觉这玩意儿首先的得立体很大,价值很大,但工作本身可能并不是很难,说朴素点,至少故事性描述很强。就NML期刊而言,拿THUML组的工作来说:首先人家的工作很优秀,确实是有价值的工作。原创 2023-10-07 15:28:39 · 241 阅读 · 0 评论 -
大语言模型综述文献(思维导图)
原创 2023-09-18 10:45:58 · 159 阅读 · 0 评论 -
如何评测一个大模型?(微软亚洲研究院 )
在这一部分,文章总结了 LLMs 在不同任务中的成功和失败案例。LLMs 能够在哪些方面表现出色?1. LLMs 在生成文本方面展现出熟练度,能够产生流畅且准确的语言表达。2. LLMs 在语言理解方面表现出色,能够进行情感分析和文本分类等任务。3. LLMs 具备强大的语境理解能力,能够生成与输入一致的连贯回答。4. LLMs 在多个自然语言处理任务中表现出令人称赞的性能,包括机器翻译、文本生成和问答任务。LLMs 在什么情况下可能会失败?原创 2023-09-17 09:52:36 · 753 阅读 · 0 评论 -
最新最全大语言模型(LLM)与机器人结合文献及其代码
GitHub - GT-RIPL/Awesome-LLM-Robotics: A comprehensive list of papers using large language/multi-modal models for Robotics/RL, including papers, codes, and related websites GitHub - jrin771/Everything-LLMs-And-Robotics: The world's largest GitHub Reposit原创 2023-07-12 15:13:10 · 1458 阅读 · 0 评论 -
COT、COT-SC、TOT 大预言模型思考方式||底层逻辑:prompt设定
3. 再进一步是:思维链问多次,出结果后选举——少数服从多数(CoT-SC)4. 思维树=思维链问多次+链里每一步的逐步选举(ToT)2. 进阶一点是:思维链,让一步步思考(CoT)1. 最简单的是:直接大白话问一次 (IO)先讲一下具体缩写的意思。原创 2023-07-12 14:57:16 · 3468 阅读 · 0 评论 -
Why Large Language Models Hallucinate and How to solve this//LLM为什么产生幻觉以及如何应对
To我同意数据质量可能是潜在原因。训练方法也可能导致意外结果。然而,幻觉的核心原因实际上是模型在n维空间中没有正确收敛,主要是由于训练数据不足。随着维度的增加,所建模的问题的表面积显著增加,这意味着您需要相应增加训练数据的规模,以确保有足够的覆盖范围,从而对收敛模型与实际目标的逼近具有高度的信心。空间覆盖的这些空白导致模型只能猜测正确答案,从而编造出虚构的内容或产生幻觉。原创 2023-06-29 01:02:44 · 620 阅读 · 0 评论 -
ViLD: Vision and Language Knowledge Distillation
ICLR官网配套资料。原创 2023-06-27 23:12:32 · 321 阅读 · 0 评论 -
GPT-4(THUDM) + LangChain >> Personalized expert AI assistant.(本地知识库教程)
GPT-4(THUDM) + LangChain >> Personalized expert AI assistant.(本地知识库教程)原创 2023-06-12 11:08:51 · 1620 阅读 · 0 评论 -
深度学习模型精度与PyTorch模型量化
PyTorch Tensor的默认类型为单精度浮点数fp32。bf16是为深度学习而优化的新数字格式,预测精度的降低幅度最小。化指的是使用更少的bit来存储原本以浮点数存储的tensor,以及使用更少的bit来完成原本以浮点数完成的计算。来进行权重参数的存储,比如Python float的类型为双精度浮点数。的技术,并且只支持量化运算符的前向传递。简单来说,在深度学习中,//可能没见过吧 ,BF是一种相对较新的数据格式。,模型量化,这是最广泛使用的模型压缩形式。当前的深度学习框架大都采用的都是。原创 2023-06-13 14:54:10 · 812 阅读 · 0 评论 -
大模型微调开源项目整理||干货
大模型微调开源项目整理||干货原创 2023-06-13 10:26:23 · 391 阅读 · 0 评论 -
被冻结的层在训练过程中参与正向反向传递,只是这一层的梯度不再更新。||底层逻辑
在微调期间,只有被激活的层的梯度会被计算和更新,而被冻结的层的梯度则会保持不变。其实从数学上去理解也不难,但自己手推还是需要花点时间的,至少先回顾一下BP。,只是自己这一层的参数不更新,其他未冻结层的参数正常更新。被冻结的层可以前向传播,也可以反向传播。原创 2023-06-12 23:05:39 · 499 阅读 · 0 评论 -
低秩矩阵(Low-Rank)的意义
比如一张大草原的图片可以理解为,草原是由很多草组成的,而草是相似的,所以如果全是草,那么这张图所包含的信息量是很少的的,因为可以理解为草是草的复制品。而图中的蒙古包,人,马之类的则可以理解为图片所包含的信息,实际上,相对于只有草的草原图片和有草和蒙古包的草原图片,后者的秩是较高的。所以总结的一点就是:如果矩阵表达的是结构性信息,例如图像、用户-商品推荐表等,那么这个矩阵各行之间存在一定的相关性,那这个矩阵一般是低秩的。所以,数学中定义,矩阵中最大的不相关的向量的个数,叫做秩,可以理解为有秩序的程度。原创 2023-06-12 22:06:38 · 3593 阅读 · 0 评论 -
大模型LLM-微调经验分享&总结
模型越大对显卡的要求越高,目前主流对大模型进行微调方法有三种:Freeze方法、P-Tuning方法和Lora方法。笔者也通过这三种方法,在信息抽取任务上,对ChatGLM-6B大模型进行模型微调。原创 2023-06-12 21:45:20 · 2613 阅读 · 1 评论