深度学习
文章平均质量分 94
chencjiajy
这个作者很懒,什么都没留下…
展开
-
向量模型Jina Embedding: 从v1到v3论文笔记
向量模型Jina Embedding: 从v1到v3论文笔记。《Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models》《[Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents]》《jina-embeddings-v3: Multilingual Embeddings With Task LoRA》原创 2024-11-02 20:59:29 · 1053 阅读 · 0 评论 -
文本分类场景下微调BERT
论文《How to Fine-Tune BERT for Text Classification?》是2019年发表的一篇论文。这篇文章做了一些实验来分析了如何在文本分类场景下微调BERT,是网上讨论如何微调BERT时经常提到的论文。原创 2024-09-07 18:40:00 · 1120 阅读 · 0 评论 -
LLM agentic模式之multi-agent: ChatDev,MetaGPT, AutoGen思路
LLM agentic模式之multi-agent: ChatDev,MetaGPT, AutoGen思路原创 2024-09-03 22:54:16 · 1271 阅读 · 0 评论 -
LLM agentic模式之规划能力(planning)
2024年2月的综述《Understanding the planning of LLM agents: A survey》提供了基于LLM的的agent的规划(planning)能力的系统视角,总结了近年来提高规划能力的工作。原创 2024-08-24 22:52:35 · 1190 阅读 · 0 评论 -
LLM agentic模式之工具使用: Toolformer、CoA、MM-React思路
LLM agentic模式之工具使用: Toolformer、CoA、MM-React思路原创 2024-08-17 22:45:58 · 747 阅读 · 3 评论 -
大模型基础之位置编码RoPE
大模型基础之位置向量RoPE原创 2024-08-03 20:58:02 · 1125 阅读 · 0 评论 -
LLM推理优化笔记2: vLLM原理PagedAttention
vLLM实现原理PagedAttention论文笔记原创 2024-07-27 22:23:27 · 959 阅读 · 1 评论 -
LLM agentic模式之工具使用: Gorilla
LLM agentic模式之工具使用: Gorilla及openfunction模型简介原创 2024-07-27 10:56:41 · 693 阅读 · 0 评论 -
RAG 查询改写方法:HyDE、LLM4CS、Query2doc、rewrite-retrieve-read、Iter-RetGen、STEP-BACK Prompting
RAG 查询改写方法:HyDE、LLM4CS、Query2doc、rewrite-retrieve-read、Iter-RetGen、STEP-BACK Prompting思路介绍原创 2024-07-21 11:24:14 · 1489 阅读 · 0 评论 -
LLM推理优化笔记1:KV cache、Grouped-query attention等
LLM推理优化之KV cache、multi-query attention、Grouped-query attention、sliding window attention原创 2024-07-13 23:03:12 · 913 阅读 · 0 评论 -
LLM agentic模式之reflection:SELF-REFINE、Reflexion、CRITIC
LLM agentic论文《Self-Refine: Iterative Refinement with Self-Feedback》《Reflexion: Language Agents with Verbal Reinforcement Learning》《CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing》原创 2024-06-23 17:14:48 · 1683 阅读 · 0 评论 -
大模型对齐方法笔记四:针对领域问答来进行知识对齐方法KnowPAT
针对领域问答来进行知识对齐方法KnowPAT,KnowPAT(Knowledgeable Preference AlignmenT) 出自2023年11月的论文《Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering》原创 2024-05-31 08:27:52 · 1124 阅读 · 0 评论 -
大模型对齐方法笔记三:不需要参考模型的对齐方法ORPO和SimPO
不需要参考模型的对齐方法ORPO和SimPO简介原创 2024-05-30 20:15:06 · 1276 阅读 · 0 评论 -
大模型对齐方法笔记二:基于Rank的对齐方法RRHF和PRO
基于Rank的大模型对齐方法RRHF和PRO思路介绍原创 2024-05-29 21:19:50 · 1800 阅读 · 0 评论 -
大模型对齐方法笔记一:DPO及其变种IPO、KTO、CPO
大模型对齐方法DPO及其变种IPO、KTO、CPO原理原创 2024-05-16 20:25:08 · 6623 阅读 · 0 评论 -
基于decoder-only LLM 的embeddings:LLM2Vec、Echo embeddings、PromptEOL、E5-mistral-7b-instruct、Sgpt等
基于decoder-only LLM得到embedding的方法:LLM2Vec、Echo embeddings、PromptEOL、E5-mistral-7b-instruct、Sgpt、RepLLaMA 、cpt-text、UDEVER原创 2024-04-30 20:40:13 · 1585 阅读 · 2 评论 -
ColBERT和ColBERTv2:兼具Bi-encoder和cross-encoder优势的多向量排序模型
ColBERT是一种多向量排序模型,因为引入了延迟交互机制(late interaction architecture)相比与cross-encoder效率提升了很多。ColBERTv2针对ColBERT的缺点进一步优化了性能和效率。在RAG大热的这一年,ColBERT也引起了一些关注。原创 2024-04-20 09:22:00 · 2663 阅读 · 1 评论 -
文本向量模型BGE与BGE-M3
文本向量模型BGE与BGE-M3原理介绍原创 2024-04-01 20:36:04 · 6081 阅读 · 0 评论 -
基于自动编码器的预训练模型方法模型预训练方法RetroMAE和RetroMAE-2
面向检索任务的基于自动编码器的预训练模型方法模型预训练方法RetroMAE和RetroMAE-2原理原创 2024-03-31 21:33:51 · 1901 阅读 · 0 评论 -
agent利用知识来做规划:《KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents》笔记
agent利用知识来做规划:《KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents》笔记原创 2024-03-24 10:13:11 · 1432 阅读 · 0 评论 -
优化器算法SGD、Adam、AdamW等
优化器算法SGD、momentum、AdaGrad、RMSProp、AdaDelta、Adam、AdamW等原创 2024-03-16 16:13:33 · 1286 阅读 · 0 评论 -
RAG综述 《Retrieval-Augmented Generation for Large Language Models: A Survey》笔记
RAG(Retrieval-Augmented Generation)综述 [Retrieval-Augmented Generation for Large Language Models: A Survey](https://arxiv.org/abs/2312.10997) 粗略笔记原创 2024-03-10 12:05:31 · 3788 阅读 · 0 评论 -
综述《Unifying Large Language Models and Knowledge Graphs: A Roadmap》统一大语言模型和知识图谱笔记
综述《Unifying Large Language Models and Knowledge Graphs: A Roadmap》统一大语言模型和知识图谱粗略笔记原创 2024-03-03 22:52:55 · 1158 阅读 · 0 评论 -
Matryoshka Representation Learning (MRL)-俄罗斯套娃向量表征学习
Matryoshka Representation Learning (MRL)是2022年发表的论文,它可以学习到不同维度都有效的嵌入向量。因为OpenAI在2024年1月底发布的新向量模型得到关注。原创 2024-02-25 21:05:24 · 1698 阅读 · 0 评论 -
激活函数小结:ReLU、ELU、Swish、GELU等
激活函数Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、ELU、SoftPlus、Maxout、Mish、Swish、GELU、SwiGLU、GEGLU 总结原创 2023-10-14 17:20:50 · 5672 阅读 · 0 评论 -
Baichuan2 技术报告笔记
Baichuan2 技术报告笔记原创 2023-09-24 11:58:05 · 419 阅读 · 0 评论 -
文本生成模型如何解码
文本生成模型的解码方法:Greedy Search、Beam Search、sampling、 Temperature Sampling、 top-k sampling、 Top-p (nucleus) sampling 、Contrastive search原创 2023-09-09 23:08:49 · 382 阅读 · 0 评论 -
Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》阅读笔记
Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》详细阅读笔记记录原创 2023-09-08 06:57:42 · 2494 阅读 · 2 评论 -
LLM自动进行数据分析-论文《Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow》笔记
让LLM自动进行数据分析,论文《Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow》笔记原创 2023-08-26 08:23:33 · 1753 阅读 · 3 评论 -
Transformer 相关模型的参数量计算
Transformer 相关模型的参数量计算原创 2023-08-19 20:29:27 · 3578 阅读 · 0 评论 -
React 论文《ReAct: Synergizing Reasoning and Acting in Language Models》阅读笔记
React agent 论文《ReAct: Synergizing Reasoning and Acting in Language Models》阅读笔记原创 2023-08-05 20:33:23 · 3858 阅读 · 1 评论 -
LLaMA模型论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记
meta的LLaMA模型对应的论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记原创 2023-07-29 10:31:38 · 2245 阅读 · 3 评论 -
Evol-Instruct:让LLM将指令改写的更复杂
Evol-Instruct方法出自论文 WizardLM: Empowering Large Language Models to Follow Complex Instructions,也是利用大模型生成指令的方法,它可以生成相对复杂和多样的指令数据集。原创 2023-07-27 22:29:19 · 4319 阅读 · 0 评论 -
低成本指令数据集构建:《Self-Instruct: Aligning Language Model with Self Generated Instructions》阅读笔记
低成本指令数据集构建:《Self-Instruct: Aligning Language Model with Self Generated Instructions》阅读笔记原创 2023-07-06 20:43:22 · 5101 阅读 · 1 评论 -
MiniGPT-4 笔记
MiniGPT-4 是前段时间由KAUST(沙特阿卜杜拉国王科技大学)开源的多模态大模型,对它的实现方法进行了总结原创 2023-05-13 19:51:26 · 725 阅读 · 0 评论 -
InstructGPT 论文阅读笔记
InstructGPT 模型是在论文《Training language models to follow instructions with human feedback》被提出的,OpenAI在2022年1月发布了这篇文章, 本文是这篇论文的阅读笔记原创 2023-04-29 19:25:58 · 1682 阅读 · 1 评论 -
子词分词器BPE和WordPiece理解
在学习不同的模型如GPT-1、Bert时可以发现它们使用了不同的子词分词器(subword tokenizer) :BPE(Bype Pair Encoding)和WordPiece。那这两个子词分词器有什么异同呢?原创 2023-04-15 15:03:29 · 1739 阅读 · 1 评论 -
GPT-2 论文阅读笔记
GPT-2模型来源于OpenAI 在2019年2月发布的论文《Language Models are Unsupervised Multitask Learners》,其模型参数多达15亿,它对下游任务不再需要微调,可以直接将模型应用于下游任务(所以是zero-shot)原创 2023-04-05 20:44:58 · 844 阅读 · 1 评论 -
GPT-1 论文阅读笔记
GPT1论文阅读记录原创 2023-04-02 14:16:14 · 730 阅读 · 1 评论 -
图表征模型GraphSAGE 笔记
GraphSAGE相比之前的模型最主要的一个特点是它可以给从未见过的图节点生成图嵌入向量。那它是如何实现的呢?它是通过在训练的时候利用节点本身的特征和图的结构信息来学习一个嵌入函数(当然没有节点特征的图一样适用),而没有采用之前常见的为每个节点直接学习一个嵌入向量的做法。它的嵌入函数准确来说是一个可以从节点的邻域节点聚合它们的特征信息的函数,并为训练这个函数设计了一个无监督的损失函数原创 2023-03-25 17:15:04 · 526 阅读 · 0 评论