1 instruction tuning & in context learning
论文名称 | 来源 | 主要内容 |
Finetuned Language Models Are Zero-Shot Learners | 2021 | 机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 早期做instruction tuning的work |
MetaICL: Learning to Learn In Context | 2021 | 机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 in-context learning都是没有finetune过程,这里相当于finetune了一下 |
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? | 2023 | 机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 在in-context learning的时候,故意给一些错误的例子、其他领域的返利,看看大模型的效果 ——>这篇论文的结论是,in-context learning只起到“唤醒”的作用,LLM本身就具备了所需要的功能。这里给LLM范例的作用只是提示LLM要做这个任务了 |
Larger language models do in-context learning differently | 2023 | 机器学习笔记:李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 在更大的LLM中,in context learning 确实也起到了让模型学习的作用 |
2 Chain of Thought
论文名称 | 来源 | 主要内容 |
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models | 2022 |
|
Large Language Models are Zero-Shot Reasoners | 2022 | 在进行CoT的时候,范例输完了,需要模型回答的问题说完了,加一行’Let's think step by step',可以获得更好的效果 |
3 others
论文略读:Onthe Expressivity Role of LayerNorm in Transformers’ Attention-CSDN博客 | ACL 2023 | LayerNorm为Transformer的Attention提供了两个重要的功能:
|
论文笔记:Frozen Language Model Helps ECG Zero-Shot Learning_冻结语言模型帮助心电图零样本学习-CSDN博客 | 2023 MIDL | 利用临床报告来引导ECG数据的预训练,实现ECG数据的零样本学习 |
Is ChatGPT A Good Translator? A Preliminary Study | 2023 | 专项翻译任务上,ChatGPT不如一些专门做翻译的模型 |
论文笔记:Evaluating the Performance of Large Language Models on GAOKAO Benchmark-CSDN博客 | 测评gpt在高考各科(文理)上得分的异同 | |
How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation | 2023 | 专项翻译任务上,ChatGPT不如一些专门做翻译的模型 |
论文笔记:Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection-CSDN博客 | 202401 arxiv | 提出了 MarketSenseAI,整合了多种数据来源,包括实时市场动态、财经新闻、公司基本面和宏观经济指标,利用GPT-4生成全面的投资建议 |
论文笔记:Lost in the Middle: How Language Models Use Long Contexts_lost in the middle人工智能-CSDN博客 | Transactions of the Association for Computational Linguistics 2024 |
|
论文笔记:FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS-CSDN博客 | iclr 2024 spotlight reviewer 评分 6668 | ![]() |
ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models-CSDN博客 | iclr 2024 oral reviewer 评分 688 | 目前LLM社区中通常使用GELU和SiLU来作为替代激活函数,它们在某些情况下可以提高LLM的预测准确率 但从节省模型计算量的角度考虑,论文认为经典的ReLU函数对模型收敛和性能的影响可以忽略不计,同时可以显着减少计算和权重IO量\ |
论文笔记:The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”-CSDN博客 | iclr 2024 reviewer 评分668 |
|
论文笔记:The Expressive Power of Transformers with Chain of Thought-CSDN博客 | ICLR 2024 reviewer 评分 6888 | 论文描述在生成答案前采取中间步骤的Transformer解码器的推理能力,并将其与没有中间步骤的Transformer进行比较 |
论文笔记:BooookScore: A systematic exploration of book-length summarization in the era of LLMs-CSDN博客 | iclr oral reviewer 评分 88810 |
|
论文略读:LLMCarbon: Modeling the End-to-End Carbon Footprint of Large Language Models-CSDN博客 | iclr 2024 oral reviewer 评分 556810 | 论文提出了一个端到端的碳足迹预测模型LLMCarbon
|
论文略读:Memorization Capacity of Multi-Head Attention in Transformers-CSDN博客 | iclr spotlight reviewer评分 6888 | 论文研究了一个具有H个头的单层多头注意力(MHA)模块的记忆容量 |
论文笔记:Does Writing with Language Models Reduce Content Diversity?-CSDN博客 | iclr 2024 reviewer评分 566 | 同质化:使用LLM写作的用户彼此写得是否更相似? |
4 大模型+时间序列
5 mobility+大模型
6 prompt
论文笔记:Prompting Large Language Models with Divide-and-Conquer Program forDiscerning Problem Solving-CSDN博客 | 对于涉及重复子任务 / 含有欺骗性内容的任务(如段落级别长度的虚假新闻检测),对输入进行拆分可以提升模型对于错误信息的分辨能力 有一定的理论证明 arxiv 202402 |
论文笔记:TALK LIKE A GRAPH: ENCODING GRAPHS FORLARGE LANGUAGE MODELS-CSDN博客 | ICLR 2024,reviewer评分 6666
|
论文笔记:ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate-CSDN博客 | ICLR 2024 最终评分 55666 论文采用了多agent辩论框架
|
论文笔记:Chain-of-Table:EVOLVING TABLES IN THE REASONING CHAIN FOR TABLE UNDERSTANDING-CSDN博客 | ICLR 2024 reviewer评分 5566 提出了CHAIN-OF-TABLE,按步骤进行推理,将逐步表格操作形成一系列表格
|
论文笔记:Take a Step Back:Evoking Reasoning via Abstraction in Large Language Models-CSDN博客 | ICLR 2024 reviewer 打分 888 在进行prompt的时候,先后退一步,从更宏观的角度来看问题,让LLM对问题有一个整体的理解;然后再回到detail上,让模型回答更具体的问题 |
论文笔记:Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs-CSDN博客 | 不需要微调来激发LLMs置信度表达的方法 |
论文笔记:Teaching Large Language Models to Self-Debug-CSDN博客 | ICLR 2024 REVIEWER打分 6666 提出了一种名为 Self-Debugging 的方法,通过执行生成的代码并基于代码和执行结果生成反馈信息,来引导模型进行调试 |
论文笔记:Large Language Models as Analogical Reasoners-CSDN博客 | iclr 2024 reviewer打分5558 论文提出一种“归纳学习”的提示方法
|
论文笔记:UNDERSTANDING PROMPT ENGINEERINGMAY NOT REQUIRE RETHINKING GENERALIZATION-CSDN博客 | ICLR 2024 reviewer评分 6888 zero-shot prompt 在视觉-语言模型中,已经取得了令人印象深刻的表现
|
论文笔记:Are Human-generated Demonstrations Necessary for In-context Learning?-CSDN博客 | iclr 2024 reviewer 评分 6668 >提出了自我反思提示策略(简称 SEC)
|
7 RAG
论文笔记:Seven Failure Points When Engineering a Retrieval AugmentedGeneration System-CSDN博客 | CAIN 2024 | 在工程化一个RAG系统时的七个不足之处 |
论文笔记:RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE-CSDN博客 | 微软24年1月 |
|
论文笔记:Retrieval-Augmented Generation forAI-Generated Content: A Survey-CSDN博客 | 北大202402的RAG综述 |
8 finetune
论文笔记:GEOLLM: EXTRACTING GEOSPATIALKNOWLEDGE FROM LARGE LANGUAGE MODELS_geollm-base-CSDN博客 | ICLR 2024 reviewer 评分 35668 介绍了GeoLLM,一种新颖的方法
|
Knowledge Card: Filling LLMs‘ Knowledge Gaps with Plug-in Specialized Language Models-CSDN博客 | ICLR 2024 (oral) reviewer评分 888 提出了KNOWLEDGE CARD |
论文笔记:NEFTune: Noisy Embeddings Improve Instruction Finetuning-CSDN博客 | iclr 2024 reviewer 评分 5666 在finetune过程的词向量中引入一些均匀分布的噪声即可明显地提升模型的表现 |
论文笔记:LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models-CSDN博客 | iclr 2024 reviewer 评分 568 论文提出了LayoutNUWA,这是第一个将布局生成视为代码生成任务的模型,以增强语义信息并利用大型语言模型(LLMs)的隐藏布局专长。 |
9 安全&隐私
论文笔记:GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher-CSDN博客 |
——>这样的步骤成功地绕过了GPT-4的安全对齐【可以回答一些反人类的问题,这些问题如果明文问的话,GPT-4会拒绝回答】 |
论文笔记:Detecting Pretraining Data from Large Language Models-CSDN博客 | iclr 2024 reviewer评分 5688 提出了一个基准 WikiMIA和一种预训练数据检测方法Min-K% Prob |
论文笔记:Teach LLMs to Phish: Stealing Private Information from Language Models-CSDN博客 | iclr 2024 reviewer 评分 588
|
论文笔记:Time Travel in LLMs: Tracing Data Contamination in Large Language Models-CSDN博客 | iclr 2024 spotlight reviewer评分 688 论文提出了两种启发式方法来估计整个数据集分区是否受污染 |
论文略读:FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!-CSDN博客 | iclr oral reviewer 打分 66610 论文发现:通过仅用少量对抗性设计的训练示例进行微调,可以破坏LLMs的安全对齐 |
论文略读:Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Att-CSDN博客 | iclr 2024 spotlight reviewer 评分 6888 直接从模型权重中删除敏感信息的任务 |
论文略读:The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Language Models-CSDN博客 | ![]() |
论文笔记:PRIVACY ISSUES IN LARGE LANGUAGE MODELS: A SURVEY-CSDN博客 | 大模型隐私综述 |
10 benchmark
论文笔记/数据集笔记:E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning-CSDN博客 | ACL 2022
|
论文笔记:Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Quer-CSDN博客 | WWW 2024
|
论文笔记:SmartPlay : A Benchmark for LLMs as Intelligent Agents-CSDN博客 | iclr 2024 reviewer评分 5688
|
论文略读:SWE-bench: Can Language Models Resolve Real-world Github Issues?-CSDN博客 | iclr 2024 oral reviewer评分 5668 论文引入了SWE-bench
|
论文笔记:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD-CSDN博客 | iclr 2024 spotlight reviewer 评分 5668 介绍了(INTHE)WILDCHAT数据集
|
11 大模型压缩
论文笔记:A Simple and Effective Pruning Approach for Large Language Models-CSDN博客 | iclr 2024 reviewer 评分 5668 引入了一种新颖、简单且有效的剪枝方法,名为Wanda (Pruning by Weights and activations)
|
| |
12 大模型+Graph
论文略读:OpenGraph: Towards Open Graph Foundation Models-CSDN博客 | ![]() |
12.1 graph prompt tuning for 推荐系统
论文笔记:GPT4Rec: Graph Prompt Tuning for Streaming Recommendation-CSDN博客 | SIGIR 2024 |
论文笔记:Integrating Large Language Models with Graphical Session-Based Recommendation-CSDN博客 | ![]() |