nlp
文章平均质量分 88
阿喵要当程序员
do things until i die
展开
-
Vision-Language Models for Vision Tasks: A Survey阅读笔记
首先,vision language model pre-training是啥呢,就是根据大量的图像-文本对来去学习其中的关系,比如CLIP模型比如一上来我有5对图像文本对,这5个pair就是我的正样本,另外,我继续两两配对出的其他图像文本对就是我的负样本了,not match。最后,作者给出了VLM pre-training的几种框架,即得到文本和图像的feature后,怎么过layer:two-tower, two-leg and one-tower pre-training frameworks.原创 2024-10-25 01:03:12 · 827 阅读 · 0 评论 -
Is Temperature the Creativity Parameter of Large Language Models?阅读笔记
然后,咱们放到GPT模型的尾端,当我要预测下一个词的时候,我需要计算每个单词成为下一个单词的概率,然后找到最大概率的那个词,作为我的下一个单词(所有词的概率加在一起是1)。温度 t<1 时,高概率的值会增加,低概率的值会降低,使得分布更加陡峭。Temperature是模型中的一个超参数,用于调节采样过程中的随机性,即下面这个softmax公式里的t,softmax大家都知道,是深度学习里非常常见的一个函数了,会在分类场景里,把数值给他映射到0-1的空间,如果是多分类,概率的和就是1啦。原创 2024-07-13 05:13:37 · 845 阅读 · 0 评论 -
来补上LangChain的CookBook(二)
之前大概有三篇帖子是根据老官网给出的Cookbook和How to两个页面的示例来写的。如今,Cookbook的示例没有写完,网站就改版了。LangChain Experssion Language 简称LCEL,感觉就是为了节省代码量,让程序猿们更好地搭建基于大语言模型的应用,而在LangChain框架中整了新的语法来搭建prompt+LLM的chain。还好,前面写的几篇博客还好都贴了源代码。记得Create new secret key以后需要把你的key在别的地方存一下,因为不会再能展示给你看了。原创 2024-04-12 05:12:18 · 901 阅读 · 0 评论 -
Llama模型下载
Llama 2是Meta最新的大语言模型(LLM),应用广泛,影响力大。在模型架构方面,Llama 2 采用了 Llama 1 的大部分预训练设置和模型架构。Llama2 有 4 种不同的大小的模型:7B、13B、34B 和 70B(34B 版本尚未发布,下载选项里确实也没有)。,把这个download.sh下载下来或者直接新建个bash文件,然后把download.sh复制到咱们的文件里。接着你就输入你邮件里的那个url信息,选择要下载的模型就可以啦!然后拉到底,勾选I accept就可以继续了。原创 2024-03-27 11:14:34 · 3091 阅读 · 1 评论 -
Self-Consistency Improves Chain of Thought Reasoning in Language Models阅读笔记
又到了读论文的时间,内心有点疲惫。什么是self-consistency呢,读完论文感觉可以这么解释,就是有个渣男/大语言模型,你问了他五次昨天晚上九点跟谁在一起/文章里问大语言模型一个问题多次,他三次说跟同事去电影,一次说没干什么,还有一次说你好烦/大语言模型也给出了一些不同的包含推理过程的答案,不过里面也是有重叠的。解析答案后,会根据所有的答案a来投票选举出最终的答案(即最具有一致性的答案)。首先这里提到的答案a,其实是需要解析的,可以看文章的脚注:解析任务是依赖于问的问题,对于算数推理题吗,作者在。原创 2024-03-27 11:13:00 · 630 阅读 · 0 评论 -
Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记
在介绍的时候作者提到,为了验证multimodal CoT的效果,目前有两类常用的方法来做multimodal CoT的实验,一种是将不同modality的数据转化成一种modality作为输入,比如把图片中的文字部分抽取出来,一起喂给大语言模型。然后将我们的思维链内容结合原本的language input一起喂给大模型来得到最终的答案。另外,还有一个有意思的发现是,作者抽样了一些回答正确的不正确的QA及其对应的CoT,在answer是正确的例子里,有10%的CoT其实是错的。原创 2024-03-26 11:12:29 · 1145 阅读 · 0 评论 -
Challenging BIG-Bench tasks and whether chain-of-thought can solve them阅读笔记
可以看到在进行模型输入的时候,任务描述、问题、选项以及测试问题的描述都是一模一样的,唯一不同的在于Answer的形式。在CoT中,Answer都以“Let's think step by step”作为开头,在示例数据的 answer中,还给出了step by step的逻辑,以及最终答案。今天的这个论文主要讲的是,研究人员发现,当使用chain-of-thought prompting的时候,大语言模型PaLM和CodeX在一些Big Bench的任务上是可以有一定的效果提升的。原创 2024-03-26 11:11:28 · 670 阅读 · 0 评论 -
Retrieval-Augmented Generation for Large Language Models: A Survey阅读笔记
Re-Ranking,对检索到的结果进行重排序,LlamaIndex,Langchain或者HayStack都已经有这种技术了,还有那种看diversity的ranker,或者把最相关的放在context开头和结尾,或者把语义相似度算的更好一点。Predict,旨在解决检索结果中的噪音信息和冗余信息,可由LLM来处理。复旦和同济大学的朋友们围绕RAG整了一篇survey,这篇综述主要分析了RAG的范式及其演变,RAG的主要技术(检索、生成和增强),测评RAG模型的指标和benchmark,测评框架。原创 2024-03-25 07:12:10 · 1419 阅读 · 0 评论 -
G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and QuestionAnswering笔记
最后咱们就可以来设计优化的目标了,即优化节点和边的总奖励,减去与子图大小相关的成本。首先,咱们的图来了以后,用一个预训练的语言模型(作者用的SentenceBert),根据点的文本属性、边的文本属性把咱们的点embedding和边embedding都生成一下,然后存储到一个nearest neighbor data structure,这怎么看着像是最近邻。对于所有的query,用同样的embedding模型来embedding一下,然后用K近邻(果然,就是KNN)的检索方法得到了一组最相关的点/边。原创 2024-03-25 07:10:17 · 930 阅读 · 0 评论 -
LangChain Experssion Language之CookBook(一)
LangChain Experssion Language 简称LCEL,感觉就是为了节省代码量,让程序猿们更好地搭建基于大语言模型的应用,而在LangChain框架中整了新的语法来搭建prompt+LLM的chain。。本文的例子主要来自官网给出的Cookbook()的示例。所谓Cookbook,那当然是不会厨艺的人每次做菜之前的必读物,我觉得这个官网的Cookbook不仅仅是关于如何使用LCEL来做大语言模型的应用了,就是给大家枚举了一下Langchain本身该怎么的几大使用方法。原创 2024-03-09 08:36:38 · 1483 阅读 · 0 评论 -
LangChain Experssion Language之How to(二)
哒哒,我又来了!首先继续介绍一下咱们明星产品Langchain的LangChain Experssion Language,简称LCEL,感觉就是为了节省代码量,让程序猿们更好地搭建基于大语言模型的应用,而在LangChain框架中整了新的语法来搭建prompt+LLM的chain。。本文的例子主要来自官网给出的How to示例(就是我现在没工作在家自己学习一下,毕竟也是做NLP的。然后就自己理解看一遍代码,如果有问题的话欢迎来评论。本文是二,有二必然有一,但是未必有三。原创 2024-03-09 08:34:45 · 916 阅读 · 0 评论 -
来,我们把LangChain了解一下
Reason:看起来呢,在这个框架里你可以搭建基于语言模型的有上下文感知能力且会一点推理的应用程序。LangChain Libraries:Python 和 JavaScript 库LangChain Templates:一系列易于部署的参考架构,适用于各种任务。原创 2024-03-07 08:17:38 · 1070 阅读 · 1 评论 -
LangChain Experssion Language之How to(一)
LangChain Experssion Language 简称LCEL,感觉就是为了节省代码量,让程序猿们更好地搭建基于大语言模型的应用,而在LangChain框架中整了新的语法来搭建prompt+LLM的chain。。本文主要讲述的是LangChain Experssion Language的How to示例集之全部来自官网。相当于自己理解看一遍代码,如果有问题的话欢迎来评论。原创 2024-03-07 08:22:30 · 879 阅读 · 1 评论 -
Microsoft的PromptBench可以做啥?
1. 快速模型性能评估:可以快速构建模型、加载数据集和评估模型性能。2. 快速工程:多种快速工程方法,例如:Few-shot Chain-of-Thought、情绪提示、专家提示等。3. 评估对抗性提示:集成了提示攻击,使研究人员能够模拟对模型的黑盒对抗性提示攻击并评估其鲁棒性。4. 动态评估:以减轻潜在的测试数据污染:集成了动态评估框架 DyVal ,动态生成具有受控复杂性的评估样本。原创 2024-02-22 07:09:24 · 1823 阅读 · 1 评论 -
来,我们熵量一下
实际熵和最大熵的比值称为信息源的相对熵。举个不恰当的例子,比如池塘里有n条鱼,一开始都很优秀,小红不知道要选择谁,这时候partner的状态是很不稳定的,可能今天跟A约会觉得A帅气,明天跟B约会觉得B优秀等等等,小红每天都自由自在选择dating对象,每条鱼的概率都差不多。首先,我们来聊聊信息(information),当有一个信息源,通过连续选择离散符号,比如字母、单词、音符、标点符号等)来产生消息时,在该过程中选择各种符号的概率依赖于先前的选择(即马尔科夫过程),与此过程相关的信息又是怎么样的呢?原创 2024-01-30 09:03:13 · 882 阅读 · 1 评论 -
那些年,不得不提的韦弗备忘录(Weaver Memorandum)
1948年的时候韦弗拜访了一个计算机实验室,并和几个研究人员讨论了处理单个单词的机器翻译,他们当时的套路是:首先“感知/sense”一个单词的字母组合,然后让机器看看它的内存是否恰好包含有问题的单词。假设,我们把用中文写的书看作是“一本用英文写的书,但是编码成了中国编码”,如果密码学的问题已经有很好的解决方案,我们是不是也可以用来解决翻译的问题了呢?这立即导致人们假设,在人类发明和发展语言的多元化情况下,存在某些不变的属性,这些属性虽然不精确,但在从统计学的角度来看,是所有语言所共有的。原创 2024-01-25 16:27:33 · 1005 阅读 · 0 评论 -
那些牛了逼的embedding预训练 ----- glove 篇
马上6.8就到28岁了,我今年的梦想是顺利毕业,活到五十岁。此篇献给垃圾喵主原创 2019-05-06 20:09:57 · 9018 阅读 · 13 评论 -
那些牛了逼的embedding预训练 ----- word2vec 篇
此篇献给一直视自己为垃圾的喵主,喵呜原创 2019-05-06 09:29:40 · 6662 阅读 · 2 评论 -
stanford NLP第二节 distributed vs distributional
distributional similarity: is a theory about semantics f word meaning the you can describe the meaning of words by as a use theory of meaning, understanding the context in which they appear.distribu...原创 2019-03-01 16:21:37 · 249 阅读 · 0 评论