阿喵要当程序员-CSDN博客

原创 Llama3原文解读（上）

主要的模块我都加粗了。首先，是咱们Llama3的结构示意图：Llama3的训练步骤主要有以下两个模块，分别是Language model pre-training和 Language model post-training。Pre-training阶段，以next-token prediction为任务来在多语言的语料上进行模型的训练。token在有些文章里被解释为令牌，其实理解为一个一个的字符也行。在这个任务中，训练token数有15.6T，模型中的参数有405B，上下文窗口长度是8K。

2025-01-11 12:48:57 1107

原创特别详细和碎碎念的ComfyUI部署记录

在 Stable Diffusion 模型中，CLIP 的主要功能是：用户输入的文本（如提示词）会通过 CLIP 模型中的文本编码器进行编码，生成text embeddings。所以相当于，他把模型整个调用的过程可视化了一下，只要修改图上的节点就行，如果你体验过一些机器学习深度学习的网站，那你肯定也熟悉这种操作方式。我搜了好几个，都提到一个TripleCLIPLoader的东西，然后我看到下图里有这个从Node Templates点击进去到这个TripleCLIPLoader的方式，我就开始探索。

2024-11-21 08:15:23 1741

原创当你想要conda安装遇到UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel的问题

想说那我就把这个not found的channel删掉吧，结果删了这个还有其他的channel报错。看了第一个GitHub帖子中的一句话。想要装个虚拟环境，结果遇到404。OK，解决了，那您也试试？

2024-11-15 05:45:25 352

原创 Vision-Language Models for Vision Tasks: A Survey阅读笔记

首先，vision language model pre-training是啥呢，就是根据大量的图像-文本对来去学习其中的关系，比如CLIP模型比如一上来我有5对图像文本对，这5个pair就是我的正样本，另外，我继续两两配对出的其他图像文本对就是我的负样本了，not match。最后，作者给出了VLM pre-training的几种框架，即得到文本和图像的feature后，怎么过layer：two-tower, two-leg and one-tower pre-training frameworks.

2024-10-25 01:03:12 1130

原创 Parameter-efficient fine-tuning methods for pretrained language models: A critical review and assess

文章这种东西真是越读越多啊，哭哭哭，今天这个文章是2023年发表的一篇，关于Parameter Efficient Fine Tuning（简称PEFT）的综述，接上一篇关于LoRA的综述，今天来读PEFT的综述。首先，这个PEFT大家有没有很熟悉呀，咱们先来看看Huggingface是怎么说这个PEFT的。目前大语言模型如果要进行微调，主要有两种方式Full parameter fine-tuning和这个Parameter Efficient Fine Tuning。

2024-08-15 07:59:02 1179

原创 A Survey on LoRA of Large Language Models阅读笔记

具体我就不展开了，看个图。最近忙着用Midjourney做图，太久没有看文章了，今天赶紧再来读一篇，是关于Lora有关模型的文献综述，已经看到有公众号写了这篇文章的解说，扫了一眼发现还是得自己好好看一遍原文撒，顺便也为了做一下讲解视频。关于秩，这里非常随便得举个🌰，x+y+z=4和2x+2y+2z=8和2x-y+3z=11，三个方程，前俩是一个意思，如果将方程组用矩阵描述，秩就表示了多少个方程是有用的，那这个🌰中的矩阵的秩就是2。首先，图上的蓝色大方块，就是咱们的大语言模型，训练完了的那一大堆参数。

2024-08-08 13:54:36 1140

原创 Min P Sampling: Balancing Creativity and Coherence at High Temperature阅读笔记

效果当然也是呱呱叫啦，具体大家可以去看一下文章，不过最后作者指出了工作的缺点，首先文章只用了Mistral 7B模型，并没有尝试其他的模型，所以结论的鲁棒性还是持疑一下。首先，采样的对象是在概率大于等于Pscaled上的数据进行的，Pscaled的计算方式则是利用相对概率值Pbase乘以最大概率值Pmax，所有满足的token采样后概率进行归一化，再随机采样。第一张图和第三张图，只有前几个token概率极高，后面的token概率都是一样的小的时候，min p采样集中只关注高概率的那些token。

2024-07-13 08:07:22 555

原创 Is Temperature the Creativity Parameter of Large Language Models?阅读笔记

然后，咱们放到GPT模型的尾端，当我要预测下一个词的时候，我需要计算每个单词成为下一个单词的概率，然后找到最大概率的那个词，作为我的下一个单词（所有词的概率加在一起是1）。温度 t<1 时，高概率的值会增加，低概率的值会降低，使得分布更加陡峭。Temperature是模型中的一个超参数，用于调节采样过程中的随机性，即下面这个softmax公式里的t，softmax大家都知道，是深度学习里非常常见的一个函数了，会在分类场景里，把数值给他映射到0-1的空间，如果是多分类，概率的和就是1啦。

2024-07-13 05:13:37 924

原创 Chain-of-Verification Reduces Hallucination in Lagrge Language Models阅读笔记

首先，这个工作所面向的LLM的问答任务，是list-based questions或者a longform generation of multiple freeform sentences，可以简单看成所得答案应该是一个列表答案来组成，看这种情境下的问答，咱们该怎么去减少幻觉的情况。首先，举个🌰，作者让LLM回答：请列举几个出生在纽约的政治家。最后的最后，相比于直接让LLM给出多个选项，感觉这个工作就相当于是，让LLM给出多个选项+让LLM单独确认每个选项，最后得到答案的准确率确实能够更高哈。

2024-07-09 06:19:00 1051

原创 KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking阅读笔记

旨在根据一定的逻辑将原始的query给他分成sub-queries，然后就在b和c步骤中对sub-queries进行知识检索，算法框架和ReAct类似，即在推理步骤中逐步核查事实。d. Judgment Based on Multi-form Knowledge，把检索出的知识和query进行组织，再次利用LLM来进行幻觉的判断，判断结果分成了三类：incorrect，correct和inconclusive。第二步，基于多种形式核查事实，包含了推理和查询分解，知识检索、知识优化、判断生成和判断聚合。

2024-07-03 06:21:30 663

原创 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 阅读笔记

于是，为了估计到底得到什么y，对于每个文章z在进行beam search中有些没有出现的y，进行了前向传播以得到概率，然后将该概率带入计算最终的边缘概率里，该操作叫thorough decoding。在训练的时候，作者表明他们并没有给出任何监督的信息，即什么样的文本应该被检索出来。看起来挺复杂，不过大致可以看到query来了以后encoder一下，然后根据maximum inner product search，最大点积向量搜索，找到维基百科中最相关的K个文档，然后送给文本生成器，让其进行文本序列的预测。

2024-05-31 08:19:46 1071

原创 Leetcode之python使用记录

开始刷题，发现很久很久很久不写java以后，所有语法基本忘光了。决定用python开始刷题。

2024-05-02 13:10:11 501

原创二分查找的刷题笔记

【代码】二分查找的刷题笔记。

2024-04-16 07:42:58 355

原创来补上LangChain的CookBook（二）

之前大概有三篇帖子是根据老官网给出的Cookbook和How to两个页面的示例来写的。如今，Cookbook的示例没有写完，网站就改版了。LangChain Experssion Language 简称LCEL，感觉就是为了节省代码量，让程序猿们更好地搭建基于大语言模型的应用，而在LangChain框架中整了新的语法来搭建prompt+LLM的chain。还好，前面写的几篇博客还好都贴了源代码。记得Create new secret key以后需要把你的key在别的地方存一下，因为不会再能展示给你看了。

2024-04-12 05:12:18 970

原创 Llama模型下载

Llama 2是Meta最新的大语言模型（LLM），应用广泛，影响力大。在模型架构方面，Llama 2 采用了 Llama 1 的大部分预训练设置和模型架构。Llama2 有 4 种不同的大小的模型：7B、13B、34B 和 70B（34B 版本尚未发布，下载选项里确实也没有）。，把这个download.sh下载下来或者直接新建个bash文件，然后把download.sh复制到咱们的文件里。接着你就输入你邮件里的那个url信息，选择要下载的模型就可以啦！然后拉到底，勾选I accept就可以继续了。

2024-03-27 11:14:34 4014 1

原创 Self-Consistency Improves Chain of Thought Reasoning in Language Models阅读笔记

又到了读论文的时间，内心有点疲惫。什么是self-consistency呢，读完论文感觉可以这么解释，就是有个渣男/大语言模型，你问了他五次昨天晚上九点跟谁在一起/文章里问大语言模型一个问题多次，他三次说跟同事去电影，一次说没干什么，还有一次说你好烦/大语言模型也给出了一些不同的包含推理过程的答案，不过里面也是有重叠的。解析答案后，会根据所有的答案a来投票选举出最终的答案（即最具有一致性的答案）。首先这里提到的答案a，其实是需要解析的，可以看文章的脚注：解析任务是依赖于问的问题，对于算数推理题吗，作者在。

2024-03-27 11:13:00 711

原创 Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记

在介绍的时候作者提到，为了验证multimodal CoT的效果，目前有两类常用的方法来做multimodal CoT的实验，一种是将不同modality的数据转化成一种modality作为输入，比如把图片中的文字部分抽取出来，一起喂给大语言模型。然后将我们的思维链内容结合原本的language input一起喂给大模型来得到最终的答案。另外，还有一个有意思的发现是，作者抽样了一些回答正确的不正确的QA及其对应的CoT，在answer是正确的例子里，有10%的CoT其实是错的。

2024-03-26 11:12:29 1400

原创 Challenging BIG-Bench tasks and whether chain-of-thought can solve them阅读笔记

可以看到在进行模型输入的时候，任务描述、问题、选项以及测试问题的描述都是一模一样的，唯一不同的在于Answer的形式。在CoT中，Answer都以“Let's think step by step”作为开头，在示例数据的 answer中，还给出了step by step的逻辑，以及最终答案。今天的这个论文主要讲的是，研究人员发现，当使用chain-of-thought prompting的时候，大语言模型PaLM和CodeX在一些Big Bench的任务上是可以有一定的效果提升的。

2024-03-26 11:11:28 824

原创 Retrieval-Augmented Generation for Large Language Models: A Survey阅读笔记

Re-Ranking，对检索到的结果进行重排序，LlamaIndex，Langchain或者HayStack都已经有这种技术了，还有那种看diversity的ranker，或者把最相关的放在context开头和结尾，或者把语义相似度算的更好一点。Predict，旨在解决检索结果中的噪音信息和冗余信息，可由LLM来处理。复旦和同济大学的朋友们围绕RAG整了一篇survey，这篇综述主要分析了RAG的范式及其演变，RAG的主要技术（检索、生成和增强），测评RAG模型的指标和benchmark，测评框架。

2024-03-25 07:12:10 1588

原创 G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and QuestionAnswering笔记

最后咱们就可以来设计优化的目标了，即优化节点和边的总奖励，减去与子图大小相关的成本。首先，咱们的图来了以后，用一个预训练的语言模型（作者用的SentenceBert），根据点的文本属性、边的文本属性把咱们的点embedding和边embedding都生成一下，然后存储到一个nearest neighbor data structure，这怎么看着像是最近邻。对于所有的query，用同样的embedding模型来embedding一下，然后用K近邻（果然，就是KNN）的检索方法得到了一组最相关的点/边。

2024-03-25 07:10:17 1138

原创 RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems阅读笔记

另外，对于编码-解码模型像是Flan模型，如果检索效果好，在做single-hop问题（single-fact的场景，感觉就是不用推理那种问题，比如知识图谱中的一组三元组即可满足解答要求）时，检索得到的结果为给模型后，模型回答的效果也好。当我们把检索结果为给模型的时候，大概从结论里可以看到这里RAG的配置，指的是，喂了多少篇文章（多了行不行），为给encoder-decoder模型还是decoder模型，喂的这些文章质量怎么样（是不是有些是不相关的会有影响），大概喂多少字符比较合适。

2024-03-21 06:36:48 836 1

原创 RAFT: Adapting Language Model to Domain Specific RAG阅读笔记

然后，整理了一份训练数据（包含两份数据：P%和1-P%），P%包含了问题、相关问答、不相关文档，1-P%包含了问题、不相关文档。然后对于模型的选择，文章大大夸赞了一番Llama2-7B，“适用于RAG任务，是良好的基础模型，在单个GPU上也可以提供服务，易于部署balbalbal”。因此，就需要准确识别和引用有用文档中的相关片段。RAFT：RAFT还不是开卷考，而是特定领域的开卷考（domain-specific open-book exam），哎，就是LLM不需要去open-domain上检索结果了。

2024-03-21 05:17:43 1577 7

原创 LangChain Experssion Language之CookBook（一）

LangChain Experssion Language 简称LCEL，感觉就是为了节省代码量，让程序猿们更好地搭建基于大语言模型的应用，而在LangChain框架中整了新的语法来搭建prompt+LLM的chain。。本文的例子主要来自官网给出的Cookbook（）的示例。所谓Cookbook，那当然是不会厨艺的人每次做菜之前的必读物，我觉得这个官网的Cookbook不仅仅是关于如何使用LCEL来做大语言模型的应用了，就是给大家枚举了一下Langchain本身该怎么的几大使用方法。

2024-03-09 08:36:38 1618

原创 LangChain Experssion Language之How to（二）

哒哒，我又来了！首先继续介绍一下咱们明星产品Langchain的LangChain Experssion Language，简称LCEL，感觉就是为了节省代码量，让程序猿们更好地搭建基于大语言模型的应用，而在LangChain框架中整了新的语法来搭建prompt+LLM的chain。。本文的例子主要来自官网给出的How to示例（就是我现在没工作在家自己学习一下，毕竟也是做NLP的。然后就自己理解看一遍代码，如果有问题的话欢迎来评论。本文是二，有二必然有一，但是未必有三。

2024-03-09 08:34:45 1016

原创 LangChain Experssion Language之How to（一）

LangChain Experssion Language 简称LCEL，感觉就是为了节省代码量，让程序猿们更好地搭建基于大语言模型的应用，而在LangChain框架中整了新的语法来搭建prompt+LLM的chain。。本文主要讲述的是LangChain Experssion Language的How to示例集之全部来自官网。相当于自己理解看一遍代码，如果有问题的话欢迎来评论。

2024-03-07 08:22:30 923 1

原创来，我们把LangChain了解一下

Reason:看起来呢，在这个框架里你可以搭建基于语言模型的有上下文感知能力且会一点推理的应用程序。LangChain Libraries：Python 和 JavaScript 库LangChain Templates：一系列易于部署的参考架构，适用于各种任务。

2024-03-07 08:17:38 1132 1

原创 Microsoft的PromptBench可以做啥？

1. 快速模型性能评估：可以快速构建模型、加载数据集和评估模型性能。2. 快速工程：多种快速工程方法，例如：Few-shot Chain-of-Thought、情绪提示、专家提示等。3. 评估对抗性提示：集成了提示攻击，使研究人员能够模拟对模型的黑盒对抗性提示攻击并评估其鲁棒性。4. 动态评估：以减轻潜在的测试数据污染：集成了动态评估框架 DyVal ，动态生成具有受控复杂性的评估样本。

2024-02-22 07:09:24 2031 1

原创互信息是怎么互的？

熵又称为自信息（self- information），用来衡量随机变量的不确定性，假设一个随机变量X代表赌场里轮盘上的数字，一个随机变量Y代表6面骰子的数字，X的熵大于Y的熵，因为Y只有1-6数字可以选择，X上有0，00，以及1-36号数字可以选择！点互信息的应用非常广泛，在自然语言处理的任务里也大展手脚，比如，计算两个单词的相关性，假设p1是单词1的出现概率，p2是单词2的出现概率，p(1,2)是单词1和单词2的同时出现的概率，然后PMI(单词1，单词2)就是两者的相关性了，值越大越相关；

2024-01-31 08:27:29 588

原创来，我们熵量一下

实际熵和最大熵的比值称为信息源的相对熵。举个不恰当的例子，比如池塘里有n条鱼，一开始都很优秀，小红不知道要选择谁，这时候partner的状态是很不稳定的，可能今天跟A约会觉得A帅气，明天跟B约会觉得B优秀等等等，小红每天都自由自在选择dating对象，每条鱼的概率都差不多。首先，我们来聊聊信息（information），当有一个信息源，通过连续选择离散符号，比如字母、单词、音符、标点符号等）来产生消息时，在该过程中选择各种符号的概率依赖于先前的选择（即马尔科夫过程），与此过程相关的信息又是怎么样的呢？

2024-01-30 09:03:13 973 1

原创一些个概率的是是非非

于是乎，通常会用这个相对频率作为概率的估计值，这种估计概率值的方法称为最大似然估计（Maximum Likelihood Estimation）。如果一共有3个白球，2个黄球，5个绿球，问：摸到两个绿球的概率是多少？如果你手上有一堆标记了S1-Sn的号码的球，在不放回的情况下，摸了。当N越来越大的时候，摸的次数越来越多的时候，实际上这个相对频率。A是样本空间的一个事件，点是❌，B1-Bn是样本空间的划分。事件(A和B)：第一次摸到一个绿球，第二次也摸到一个绿球。并且你要知道，所有球的相对频率的和为1。

2024-01-26 09:28:20 458 1

一些mfc的练习题

mfc 算加法

关于AP聚类聚不出来的preference设置问题