论文目录3：大模型时代（2023+）

UQI-LIUWJ

已于 2025-02-25 17:34:11 修改

阅读量2.1k

点赞数 27

分类专栏：各专栏目录文章标签：人工智能 chatgpt

于 2024-03-05 17:32:53 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/136484878

版权

各专栏目录专栏收录该内容

32 篇文章

订阅专栏

1 instruction tuning & in context learning

论文名称	来源	主要内容
Finetuned Language Models Are Zero-Shot Learners	2021	机器学习笔记：李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客早期做instruction tuning的work
MetaICL: Learning to Learn In Context	2021	机器学习笔记：李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客 in-context learning都是没有finetune过程，这里相当于finetune了一下
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?	2023	机器学习笔记：李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客在in-context learning的时候，故意给一些错误的例子、其他领域的返利，看看大模型的效果 ——>这篇论文的结论是，in-context learning只起到“唤醒”的作用，LLM本身就具备了所需要的功能。这里给LLM范例的作用只是提示LLM要做这个任务了
Larger language models do in-context learning differently	2023	机器学习笔记：李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客在更大的LLM中，in context learning 确实也起到了让模型学习的作用

2 Chain of Thought

论文名称

来源

主要内容

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

2022

如果是数学这种需要推理的问题，直接给 in-context learning 往往效果若不好
而如果我们给范例的时候，同时给推导过程+答案。期望模型输出答案的时候，也先输出推导，再输出答案
这就叫Chain of Thought Prompting

机器学习笔记：李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

Large Language Models are Zero-Shot Reasoners

2022

在进行CoT的时候，范例输完了，需要模型回答的问题说完了，加一行’Let's think step by step'，可以获得更好的效果

机器学习笔记：李宏毅ChatGPT Finetune VS Prompt_UQI-LIUWJ的博客-CSDN博客

3 others

论文略读：Onthe Expressivity Role of LayerNorm in Transformers’ Attention-CSDN博客	ACL 2023	LayerNorm为Transformer的Attention提供了两个重要的功能：投影，projection scaling 缩放
论文笔记：Frozen Language Model Helps ECG Zero-Shot Learning_冻结语言模型帮助心电图零样本学习-CSDN博客	2023 MIDL	利用临床报告来引导ECG数据的预训练，实现ECG数据的零样本学习
Is ChatGPT A Good Translator? A Preliminary Study	2023	专项翻译任务上，ChatGPT不如一些专门做翻译的模型
论文笔记：Evaluating the Performance of Large Language Models on GAOKAO Benchmark-CSDN博客		测评gpt在高考各科（文理）上得分的异同
How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation	2023	专项翻译任务上，ChatGPT不如一些专门做翻译的模型
论文笔记：Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection-CSDN博客	202401 arxiv	提出了 MarketSenseAI，整合了多种数据来源，包括实时市场动态、财经新闻、公司基本面和宏观经济指标，利用GPT-4生成全面的投资建议
论文笔记：Lost in the Middle: How Language Models Use Long Contexts_lost in the middle人工智能-CSDN博客	Transactions of the Association for Computational Linguistics 2024	在处理需要识别相关上下文的信息的任务（文档问答、键值对索引）时，大模型对相关信息的位置很敏感当相关的信息在输入prompt的开头或者结尾时，能够取得较好的效果而当相关的信息在prompt中间部分时，性能会显著下降。
论文笔记：FROZEN TRANSFORMERS IN LANGUAGE MODELSARE EFFECTIVE VISUAL ENCODER LAYERS-CSDN博客	iclr 2024 spotlight reviewer 评分 6668
ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models-CSDN博客	iclr 2024 oral reviewer 评分 688	目前LLM社区中通常使用GELU和SiLU来作为替代激活函数，它们在某些情况下可以提高LLM的预测准确率但从节省模型计算量的角度考虑，论文认为经典的ReLU函数对模型收敛和性能的影响可以忽略不计，同时可以显着减少计算和权重IO量\
论文笔记：The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”-CSDN博客	iclr 2024 reviewer 评分668	论文揭示了自回归大模型（LLM）中令人惊讶的泛化失败【反转诅咒】如果模型在“A is B”形式的句子上进行训练，它不会自动泛化到相反的方向“B is A”
论文笔记：The Expressive Power of Transformers with Chain of Thought-CSDN博客	ICLR 2024 reviewer 评分 6888	论文描述在生成答案前采取中间步骤的Transformer解码器的推理能力，并将其与没有中间步骤的Transformer进行比较提供了Transformer能力的上限和下限，取决于t(n)：允许的中间步骤数量作为输入大小n的函数。主要关注三种情况：对数步骤（当t(n) = Θ(log n)）线性步骤（当t(n) = Θ(n)）和多项式步骤
论文笔记：BooookScore: A systematic exploration of book-length summarization in the era of LLMs-CSDN博客	iclr oral reviewer 评分 88810	论文通过两种提示工作流程首次展示了基于LLM的书籍长度总结器（1）层次性合并块级总结（2）逐步更新运行中的总结由于人类评估昂贵且耗时，论文开发了一种自动度量标准，BooookScore，用于测量总结中不包含任何已识别错误类型的句子的比例
论文略读：LLMCarbon: Modeling the End-to-End Carbon Footprint of Large Language Models-CSDN博客	iclr 2024 oral reviewer 评分 556810	论文提出了一个端到端的碳足迹预测模型LLMCarbon 可以准确预测密集型和MoE LLMs在其训练、推理、实验和存储阶段的碳足迹
论文略读：Memorization Capacity of Multi-Head Attention in Transformers-CSDN博客	iclr spotlight reviewer评分 6888	论文研究了一个具有H个头的单层多头注意力（MHA）模块的记忆容量
论文略读：EDT: Improving Large Language Models’ Generation by Entropy-based Dynamic Temperature Sampling-CSDN博客	南大 2024年3月的work	论文提出了EDT方法在每个解码步骤中动态选择温度在文本摘要、问答和机器翻译等代表性基准上评估了EDT策略，效果都更好在生成质量和多样性之间取得了更好的平衡，并且几乎不增加推理成本
论文略读：Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore-CSDN博客	arxiv 202405	人类在写作时比语言模型更容易犯语法错误
论文笔记：Does Writing with Language Models Reduce Content Diversity?-CSDN博客	iclr 2024 reviewer评分 566	同质化：使用LLM写作的用户彼此写得是否更相似？使用InstructGPT的组在同质化程度上高于控制组和GPT3组通过将模型贡献的文本与每篇文章的总结要点匹配，我们发现InstructGPT贡献的要点导致了同质化增加多样性：与LLM一起写作是否降低了一组用户产生的内容的多样性？与InstructGPT一起写的文章集合显示出较低的词汇多样性，并且表达的关键点的多样性也降低
论文略读Fewer Truncations Improve Language Modeling-CSDN博客	icml 2024	在传统LLM训练过程中，为了提高效率，通常会将多个输入文档拼接在一起，然后将这些拼接的文档分割成固定长度的序列。 ——>会造成一个重大问题——文档截断（document truncation），损害了数据完整性（data integrity）此外，文档截断减少了每个序列中的上下文量，可能导致下一个词的预测与上文不相关，从而使模型更容易产生幻觉（hallucination）。论文提出了最佳适配打包（Best-fit Packing）使用长度感知的组合优化技术，有效地将文档打包到训练序列中，从而完全消除不必要的截断。不仅保持了传统方法的训练效率，而且通过减少数据的片段化，实质性地提高了模型训练的质量
论文略读： LLaMA Pro: Progressive LLaMA with Block Expansion-CSDN博客		提出了一种用于LLMs的新的预训练后方法包括Transformer块的扩展仅使用新语料库调整扩展块，以高效而有效地提升模型的知识，而不引发灾难性的遗忘
论文略读：Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?-CSDN博客		论文提出了LOFT（Long-Context Frontiers）基准测试,全面测试长上下文模型的能力
论文略读： Scaling laws with vocabulary： larger model deserve larger vocabularies-CSDN博客		更大的模型应该配备更大的词表，且在给定算力的情况下，最优的词表大小是有上限的
论文略读： TransTab: Learning Transferable Tabular Transformers Across Tables-CSDN博客	2022 neurips	motivation：有若干个有标签的表格，但是每个表格的列名（代表的属性）都不大一样怎样把这些表格都利用起来，学习一个普适的embedding ——>利用列名
论文笔记：Are we there yet? Revealing the risks of utilizing large language models in scholarly peer revi-CSDN博客	202412 arxiv	大语言模型在审稿中存在各种潜藏的风险

4 大模型+时间序列

论文名称	来源	主要内容
论文笔记： One Fits All:Power General Time Series Analysis by Pretrained LM_UQI-LIUWJ的博客-CSDN博客	2023 neurips	GPT2的Transformer 冻结自注意力层+FFN层微调位置嵌入和Layer Norm 使用Patching的方式将时间序列分块，以进行tokenize 证明了预训练模型中的Transformer有类似于PCA的非特定数据集相关能力
论文笔记：How Can Large Language Models Understand Spatial-Temporal Data?-CSDN博客	arxiv 202401
论文笔记：Large Language Models Are Zero-Shot Time Series Forecasters-CSDN博客	2023 neurips
论文笔记；LargeST: A Benchmark Dataset for Large-ScaleTraffic Forecasting-CSDN博客	2023 neurips	提出了一个新的基准数据集LargeST 广泛的图大小，包括加利福尼亚州的8,600个传感器丰富的时间覆盖和丰富的节点信息——每个传感器包含5年的数据和全面的元数据
论文笔记：PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting-CSDN博客	TKDE 2023\
论文笔记：TEST: Text Prototype Aligned Embedding to ActivateLLM’s Ability for Time Series_UQI-LIUWJ的博客-CSDN博客	2023	对比学习学习时间序列token的embedding，然后将时间序列token的embedding和文本token的embedding进行对齐，并利用soft prompting进行后续大模型训练
论文笔记：TimeGPT-1-CSDN博客		时间序列的第一个基础大模型
论文笔记：Spatial-Temporal Large Language Model for Traffic Prediction-CSDN博客	arxiv 2024 时空+大模型	论文笔记：Spatial-Temporal Large Language Model for Traffic Prediction-CSDN博客论文辅助笔记：ST-LLM-CSDN博客
论文笔记：LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompt-CSDN博客	202402	只使用prompt 进行时间序列预测的论文
论文笔记：Time-LLM: Time Series Forecasting by Reprogramming Large Language Models-CSDN博客论文辅助笔记：TimeLLM-CSDN博客	iclr 2024 reviewer 评分 3888
论文笔记：TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting-CSDN博客论文辅助笔记：TEMPO 之 utils.py-CSDN博客论文辅助笔记：TEMPO之feature.py-CSDN博客论文辅助笔记：TEMPO 之 dataset.py-CSDN博客论文辅助笔记：Temop之modules/utils.py-CSDN博客论文辅助笔记：Tempo 之 model.py-CSDN博客论文辅助笔记：Tempo之modules/lora.py-CSDN博客论文辅助笔记：Tempo之modules/prompt.py-CSDN博客	iclr 2024 reviewer评分 568
论文笔记：UrbanGPT: Spatio-Temporal Large Language Models-CSDN博客
论文略读：From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Re-CSDN博客	2024 Neurips	提出了一种统一的方法，通过文本提示将新闻和补充信息嵌入到时间序列数据中使用instruction tuning的方式
论文略读：Retrieval Augmented Time Series Forecasting-CSDN博客	202411 arxiv	RAG+时间序列预测
论文笔记： TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large-CSDN博客		提出了TableTime，一种基于表格理解的全新时间序列分类框架将多变量时间序列分类重新定义为表格理解任务

5 mobility+大模型

论文笔记：TravelPlanner: A Benchmark for Real-World Planning with Language Agents_旅行规划算法论文-CSDN博客
论文笔记：Leveraging Language Foundation Models for Human Mobility Forecasting-CSDN博客
论文笔记：SynMob: Creating High-Fidelity Synthetic GPSTrajectory Dataset for Urban Mobility Analysis-CSDN博客	为城市移动性分析定制一个高保真合成轨迹数据集，并对其实用性进行彻底评估 Neurips 2023 dataset 论文辅助笔记/数据记笔记：SynMob-CSDN博客
论文笔记 Where Would I Go Next? Large Language Models as Human Mobility Predictor-CSDN博客论文辅助笔记：LLM-Mob metric测量-CSDN博客论文辅助笔记：LLM-MOB代码解读-CSDN博客	202308 提出了一个名为LLM-Mob的框架将流动性数据组织成历史停留和上下文停留，以解释人们移动中的长期和短期依赖性利用目标停留的时间信息进行时间感知预测设计了有效的prompt策略来帮助LLM理解流动性数据，最大化它们的推理能力，使预测结果的解释成为可能。
论文略读 Let’s Speak Trajectories: A Vision To Use NLP Models For Trajectory Analysis Tasks_let鈥檚 speak trajectories: a vision to use nlp mode-CSDN博客	ACM Transactions on Spatial Algorithms and Systems 2022 将轨迹任务和NLP任务对齐
论文笔记 Exploring Large Language Models forHuman Mobility Prediction under Public Events-CSDN博客	202311 使用两种类型的数据：过去的事件描述和人类移动流引入了一个基于LLMs的公共事件下人类移动性预测框架（LLM-MPE）
论文笔记：Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati-CSDN博客	LLM+轨迹生成 li'yong 大模型（不train直接使用），得到用户在某一天的pattern（通用mobility）和motivation（短期的mobility），生成相应的轨迹
论文笔记：Beyond Imitation: Generating Human Mobility fromContext-aware Reasoning with Large Language Mo-CSDN博客	202402 利用LLMs的推理能力，提出了一种新颖的以推理为基础的流动性生成（MobiGeaR）框架通过将流动性生成问题重新表述为一个常识推理问题，取代了经典深度学习模型的行为分布模仿框架通过递归提示LLM生成下一个访问位置通过考虑个体的人口统计特征、当前位置和时间来推理合理的行为
论文笔记：Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati-CSDN博客	202402
论文笔记：Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond-CSDN博客
论文笔记：Large Language Model for Participatory Urban Planning-CSDN博客
论文笔记：MobilityGPT: Enhanced Human MobilityModeling with a GPT mode_mobilitygpt: enhanced human mobility modeling with-CSDN博客
论文笔记：Large Language Models are Zero-Shot Next LocationPredictors-CSDN博客“” 论文辅助笔记：Large Language Models are Zero-Shot Next LocationPredictors-CSDN博客	纯prompt next location
论文/讲座笔记：Fundamental limitations offoundational forecasting modelsThe need for multimodality and ri_fundamental limitations of foundational forecastin-CSDN博客	2024 neurips TimesNet~TiimeLLM，这些模型都有用么

6 prompt

论文笔记：Prompting Large Language Models with Divide-and-Conquer Program forDiscerning Problem Solving-CSDN博客	对于涉及重复子任务 / 含有欺骗性内容的任务（如段落级别长度的虚假新闻检测），对输入进行拆分可以提升模型对于错误信息的分辨能力有一定的理论证明 arxiv 202402
论文略读： ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA-CSDN博客	ICLR 2024 论文提出了一种简单有效的数据选择策略，使用ChatGPT自动识别和过滤掉低质量数据同时引入了: ALPAGASUS，它是仅对从52k训练数据中过滤出来的9k高质量数据进行微调。在多个测试集和受控人类评估上显着优于 GPT-4 将 7B 的训练时间从 80 分钟减少到 14 分钟。
论文笔记：TALK LIKE A GRAPH: ENCODING GRAPHS FORLARGE LANGUAGE MODELS-CSDN博客	ICLR 2024，reviewer评分 6666 对用于LLMs的图结构提示技术进行了广泛研究为将图编码为文本以供LLMs使用提供了见解和最佳实践为社区研究LLMs效果提供了新的图基准（GraphQA）
论文笔记：ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate-CSDN博客	ICLR 2024 最终评分 55666 论文采用了多agent辩论框架利用它们各自的能力和专业知识来提高处理复杂任务的效率和效果构建了一个名为ChatEval的多agent裁判团队，允许每个agent使用不同的沟通策略进行协作讨论，以制定最终判断
论文笔记：Chain-of-Table:EVOLVING TABLES IN THE REASONING CHAIN FOR TABLE UNDERSTANDING-CSDN博客	ICLR 2024 reviewer评分 5566 提出了CHAIN-OF-TABLE，按步骤进行推理，将逐步表格操作形成一系列表格定义了一组表格操作，例如添加列、选择行、分组等提示LLMs进行逐步推理。
论文笔记：Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering-CSDN博客	不同的LLMs由于训练数据的不同，可能具有不同的内在知识和推理能力 ——>多个LLMs协作可能比单个LLM犯错误的可能性要小检查多个LLMs的一致性有助于减少输出幻觉
论文笔记：Take a Step Back：Evoking Reasoning via Abstraction in Large Language Models-CSDN博客	ICLR 2024 reviewer 打分 888 在进行prompt的时候，先后退一步，从更宏观的角度来看问题，让LLM对问题有一个整体的理解；然后再回到detail上，让模型回答更具体的问题
论文笔记：Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs-CSDN博客	不需要微调来激发LLMs置信度表达的方法
论文笔记：Teaching Large Language Models to Self-Debug-CSDN博客	ICLR 2024 REVIEWER打分 6666 提出了一种名为 Self-Debugging 的方法，通过执行生成的代码并基于代码和执行结果生成反馈信息，来引导模型进行调试
论文笔记：Large Language Models as Analogical Reasoners-CSDN博客	iclr 2024 reviewer打分5558 论文提出一种“归纳学习”的提示方法首先设计prompt让大模型生成出与当前问题比较相关的问题和答案，以辅助问答提出的问题
论文笔记：UNDERSTANDING PROMPT ENGINEERINGMAY NOT REQUIRE RETHINKING GENERALIZATION-CSDN博客	ICLR 2024 reviewer评分 6888 zero-shot prompt 在视觉-语言模型中，已经取得了令人印象深刻的表现这一成功呈现出一个看似令人惊讶的观察：这些方法相对不太受过拟合的影响论文试图从理论上解释这一点
论文笔记：Are Human-generated Demonstrations Necessary for In-context Learning?-CSDN博客	iclr 2024 reviewer 评分 6668 >提出了自我反思提示策略（简称 SEC）不使用手工制作的示例作为演示，而是要求 LLMs 首先自行创建演示，基于这些演示生成最终输出 SEC 有效地解决了 ICL 的缺点：它不仅可以节省制作演示的繁重劳动，更重要的是，消除了人工制作提示的不稳定性

7 RAG

论文略读：Self-Knowledge Guided Retrieval Augmentation for Large Language Models-CSDN博客	2023 emnlp findings	设计了名为 SKR （Self-Knowledge Guided Retrieval Augmentation）的框架对模型本身已知的问题直接生成答案，对未知的问题才调用 RAG 模块
论文略读：GRAG:GraphRetrieval-Augmented Generation_grag: graph retrieval-augmented generation-CSDN博客		论文提出了GRAG，通过考虑文献之间的引用网络和主题分布将拓扑信息在检索阶段和生成阶段利用起来，提高生成式语言模型的生成质量和图场景下的上下文一致性
论文笔记：Seven Failure Points When Engineering a Retrieval AugmentedGeneration System-CSDN博客	CAIN 2024	在工程化一个RAG系统时的七个不足之处
论文略读：When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric-CSDN博客	2023 ACL	一个主要的结论：对于语言模型来说，当问题需要的知识是高频率的热门知识时，检索增强反而会降低模型的性能。——>论文提出只对问到长尾的知识的问题进行检索。
论文笔记：RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASESTUDY ON AGRICULTURE-CSDN博客	微软24年1月	提出了一个全面的大语言模型流程，以生成高质量的、特定于行业【如农业】的问题和答案旨在生成地理特定的答案起点是一个农业数据集，该数据集被输入到三个主要组件：问答生成、检索增强生成（RAG）和微调过程问答生成根据农业数据集中可用的信息创建问题和答案对 RAG使用它作为知识来源精炼生成的数据，并用其微调数个模型
论文略读：LLMs+Persona-Plug = Personalized LLMs_llms + persona-plug = personalized llms-CSDN博客
论文笔记：Retrieval-Augmented Generation forAI-Generated Content: A Survey-CSDN博客		北大202402的RAG综述
论文略读：The Power of Noise: Redefining Retrieval for RAG Systems-CSDN博客		在RAG中，噪声文档不仅没有对系统性能造成负面影响，反而能够显著提高系统的准确性
论文略读 RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedba-CSDN博客	ACL 2024	提出了检索增强迭代自反馈（RA-ISF），通过迭代处理问题，结合自知识模块、文本相关性模块和问题分解模块，以提高模型的问题解决能力

8 finetune

论文笔记：GEOLLM: EXTRACTING GEOSPATIALKNOWLEDGE FROM LARGE LANGUAGE MODELS_geollm-base-CSDN博客	ICLR 2024 reviewer 评分 35668 介绍了GeoLLM，一种新颖的方法通过对LLM进行微调，利用构建的提示与OpenStreetMap的辅助地图数据，有效提取LLM中包含的丰富地理空间知识通过论文展示的提示策略，可以精确定位一个位置，并为LLM提供足够的空间上下文信息，从而使其能够访问并利用其广泛的地理空间知识在提示中包括来自附近位置的信息，可以将GPT-3.5的性能提高3.3倍，相比仅提供目标位置的坐标
Knowledge Card: Filling LLMs‘ Knowledge Gaps with Plug-in Specialized Language Models-CSDN博客	ICLR 2024 （oral） reviewer评分 888 提出了KNOWLEDGE CARD 通过整合更小但专业化的语言模型，为通用型LLMs赋予模块化和协作源的知识越来越多强大的LLMs API已经发布，但是他们不直接可访问，并且训练或调整成本过高 ——>KNOWLEDGE CARD专注于增强黑盒LLMs以丰富其知识能力原文链接：https://blog.csdn.net/qq_40206371/article/details/137459686
论文笔记：NEFTune: Noisy Embeddings Improve Instruction Finetuning-CSDN博客	iclr 2024 reviewer 评分 5666 在finetune过程的词向量中引入一些均匀分布的噪声即可明显地提升模型的表现
论文略读：LoRA Learns Less and Forgets Less-CSDN博客	LORA相比于全参数训练，学的少，但忘的也少
论文笔记：LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models-CSDN博客	iclr 2024 reviewer 评分 568 论文提出了LayoutNUWA，这是第一个将布局生成视为代码生成任务的模型，以增强语义信息并利用大型语言模型（LLMs）的隐藏布局专长。开发了一种代码指令调整（CIT）方法，包括三个相互连接的模块： 1）代码初始化（CI）模块量化数值条件并将其初始化为带有策略性放置的掩码的HTML代码； 2）代码完成（CC）模块利用LLMs的格式化知识填补HTML代码中的掩码部分； 3）代码渲染（CR）模块将完成的代码转换为最终的布局输出，确保一个高度可解释和透明的布局生成过程，直接将代码映射到可视化布局。
论文略读：RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs-CSDN博客	2024 Neurips 在推理阶段，LLM首先对检索到的上下文进行重新排序，然后基于精炼后的前k（例如5个）生成答案

9 安全&隐私

论文笔记：GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher-CSDN博客	输入转换为密码，同时附上提示，将加密输入喂给LLM LLM输出加密的输出加密的输出通过解密器解密 ——>这样的步骤成功地绕过了GPT-4的安全对齐【可以回答一些反人类的问题，这些问题如果明文问的话，GPT-4会拒绝回答】
论文笔记：When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models-CSDN博客	弱智吧benchmark ——>测评 LLM 是否能够理解可能包含误导性、错误前提、故意歧义等的狡猾问题（Cunning Questions）
论文笔记：Detecting Pretraining Data from Large Language Models-CSDN博客	iclr 2024 reviewer评分 5688 提出了一个基准 WikiMIA和一种预训练数据检测方法Min-K% Prob
论文略读：Case-Based or Rule-Based: How Do Transformers Do the Math?-CSDN博客	ICML 2024 大模型是基于规则还是基于样例推理数学呢？
论文笔记：Teach LLMs to Phish: Stealing Private Information from Language Models-CSDN博客	iclr 2024 reviewer 评分 588 提出了一种“神经网络钓鱼攻击” 一种新的针对在敏感用户数据上训练或finetune的LLMs的攻击向量攻击者将看似无害的投毒数据插入到模型的训练数据集中，以“教会LLMs进行钓鱼”，即诱导模型记住他人的个人身份信息，从而使对手能够通过训练数据提取攻击轻松提取这些秘密数据
论文笔记：Time Travel in LLMs: Tracing Data Contamination in Large Language Models-CSDN博客	iclr 2024 spotlight reviewer评分 688 论文提出了两种启发式方法来估计整个数据集分区是否受污染第一种启发式方法认为，如果在引导指令下生成的部分与参考实例之间的平均重叠得分在统计上显著高于使用不包括数据集和分区名称的“通用指令”测得的得分，则该分区很可能受污染第二种启发式方法是，如果基于GPT-4的分类器通过少量示例的in-context learning，至少标记一个生成的部分与参考实例精确匹配，或至少两个生成的部分为近精确匹配，则标记该分区为受污染
论文略读：FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!-CSDN博客	iclr oral reviewer 打分 66610 论文发现：通过仅用少量对抗性设计的训练示例进行微调，可以破坏LLMs的安全对齐通过在OpenAI的API上仅用10个此类示例进行微调，成本不到0.20美元，就破解了GPT-3.5 Turbo的安全防护，使模型几乎可以响应任何有害指令论文还揭示了，即使没有恶意意图，仅仅使用良性和常用的数据集进行微调也可能无意中降低LLMs的安全对齐，尽管程度较小
论文略读：Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Att-CSDN博客	iclr 2024 spotlight reviewer 评分 6888 直接从模型权重中删除敏感信息的任务
论文略读： Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probab_fast-detectgpt efficient zero-shot detection of ma-CSDN博客	ICLR 2024 人类和机器在给定上下文的情况下选择词汇存在明显的差异人类的选择比较多样，而机器更倾向于选择具有更高模型概率的词汇
论文略读：The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Language Models-CSDN博客
论文笔记：PRIVACY ISSUES IN LARGE LANGUAGE MODELS: A SURVEY-CSDN博客	大模型隐私综述
论文略读：Learning and Forgetting Unsafe Examples in Large Language Models-CSDN博客	然对齐的LLMs可以轻松学习这些不安全内容，但当随后在更安全的内容上进行微调时，它们相对于其他示例更容易遗忘这些内容。
论文略读：Large Language Models Relearn Removed Concepts-CSDN博客	模型可以通过将高级概念重新定位到较早的层，并将修剪的概念重新分配给具有相似语义的激活神经元，从而在修剪后迅速恢复性能。
论文略读：Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore-CSDN博客	人类在写作时比语言模型更容易犯语法错误

10 benchmark

论文笔记/数据集笔记：E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning-CSDN博客	ACL 2022 提出了数据集E-KAR 首个可解释的知识密集型类比推理数据集由 1,655 个（中文）和 1,251 个（英文）来自中国公务员考试的问题组成并提出了类比推理问题的两个基准任务，用于教会和验证模型学习类比的能力
论文略读：MathBench: Evaluating the Theory and Application Proficiency of LLMswith a Hierarchical Mathem_mathbench数据集中文-CSDN博客	ACL 2024 findings 数学benchmark，涵盖从小学、初中、高中、大学不同难度，从基础算术题到高阶微积分、统计学、概率论等丰富类别的数学题目
论文略读：MathScale: Scaling Instruction Tuning for Mathematical Reasoning-CSDN博客	本文提出了一种名为MathScale的概念简单且可扩展的方法，来生成高质量数学推理数据集与此同时，论文构建了MWPBENCH 包含十个数据集的数学文字问题（Math Word Problems）基准测试集涵盖了从小学到大学以及竞赛级别的数学问题
论文笔记：Better to Ask in English: Cross-Lingual Evaluation of Large Language Models for Healthcare Quer-CSDN博客	WWW 2024 研究了将大模型应用在医疗查询对话系统中的表现提出了名为 XLingEval 的新型跨语言评测框架，以及名为XLingHealth的医疗查询跨语言数据集
论文笔记：SmartPlay : A Benchmark for LLMs as Intelligent Agents-CSDN博客	iclr 2024 reviewer评分 5688 引入了 SmartPlay，一种从 6 种不同游戏中提取的基准衡量LLM作为智能体的能力
论文略读：SWE-bench: Can Language Models Resolve Real-world Github Issues?-CSDN博客	iclr 2024 oral reviewer评分 5668 论文引入了SWE-bench 在现实软件工程环境中评估语言模型的基准测试
论文笔记：(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD-CSDN博客	iclr 2024 spotlight reviewer 评分 5668 介绍了(INTHE)WILDCHAT数据集一个全面的多轮、多语种数据集包括通过ChatGPT和GPT-4 API支持的聊天机器人服务收集的570,000次完整对话，涵盖超过150万次互动轮次
论文略读：X-VARS: Introducing Explainability in Football Refereeingwith Multi-Modal Large Language Model_soccernet xfoul-CSDN博客	用于足球犯规视频识别和解释的数据集包含高质量的视频文本对，超过10k个视频剪辑和22k个问题，由70多名经验丰富的裁判进标注是体育领域中最大的数据集，涵盖了复杂问题，并且是唯一专注于裁判问题的数据集

11 大模型压缩

论文笔记：A Simple and Effective Pruning Approach for Large Language Models-CSDN博客

iclr 2024 reviewer 评分 5668

引入了一种新颖、简单且有效的剪枝方法，名为Wanda (Pruning by Weights and activations）

在每个输出的基础上，剪枝那些乘以相应输入激活后幅度最小的权重
无需重新训练或权重更新，剪枝后的LLM可以即刻使用

12 大模型+Graph

论文略读：OpenGraph: Towards Open Graph Foundation Models-CSDN博客
论文略读：ASurvey of Large Language Models for Graphs_graph2text or graph2token: a perspective of large -CSDN博客	归纳了四种主要的graph+大模型 GNNs as Prefix LLMs as Prefix LLMs-Graphs Integration LLMs-Only

12.1 graph prompt tuning for 推荐系统

论文笔记：GPT4Rec: Graph Prompt Tuning for Streaming Recommendation-CSDN博客

SIGIR 2024

论文笔记：Integrating Large Language Models with Graphical Session-Based Recommendation-CSDN博客

13 efficient ML

论文笔记：OneBit: Towards Extremely Low-bit Large Language Models-CSDN博客	论文提出OneBit 框架，包括全新的 1bit 层结构、基于 SVID 的参数初始化方法和基于量化感知知识蒸馏的知识迁移
论文笔记：SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning-CSDN博客	ACL 2024 通过在 PEFT 模块（adapter/LORA）的输入中注入初始残差，减少了 Transformer 模型中的过平滑问题
论文略读：Not all Layers of LLMs are Necessary during Inference-CSDN博客	这篇论文动态减少激活神经元的数量以加速LLM推理根据输入实例动态决定推理终止时刻动态减少激活神经元的数量以加速LLM推理根据输入实例动态决定推理终止时刻
论文略读：MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning-CSDN博客	过低的秩会严重限制模型学习和记忆新知识的能力，尤其在需要获取大量领域知识的任务上 oRA的关键在于使用方阵M取代LoRA的低秩矩阵A和B，以提升rank
论文略读：LoRA+: Efficient Low Rank Adaptation of Large Models-CSDN博客	从理论分析了LoRA最优解必然是右矩阵的学习率大于左矩阵的学习率（数量级差距是O(n)）

14 多模态

论文略读：AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling-CSDN博客	ACL 2024 在单一框架内整个多个模态采用离散表示来统一处理文本、各种模态、图像和音乐
论文略读：OneChart: Purify the Chart Structural Extraction via One Auxiliary Token-CSDN博客	图表解析模型对于之前的视觉语言模型，论文认为其有两点不足需要改进：需要充分训练一个真正会看 chart 的 vision encoder 单纯对文本输出算交叉熵损失，并不是最优的（如上图所示，当ground-truth 是 7008 时，模型输出 70.8 和 7007 损失是一样的【都是没分类到正确的内容】，但显然 7007 是相对可以接受的误差） ——>Onechart 的做法是引入了一个辅助 decoder，并设计 L1 loss 来进行监督
论文笔记：Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See-CSDN博客	2024 10 保持性能的同时显著降低计算复杂度
论文结论：From Redundancy to Relevance: EnhancingExplainability in Multimodal Large Language Models-CSDN博客	在浅层与深层中不同token信息流汇聚情况有所区别浅层（1-11层）对于图像内容有显著的响应（与提示选项相关的图像区域高亮显示）模型在理解提示中的上下文、问题和选项后，能过滤并专注于与提示相关的图像内容在深层（12-32），系统token和用户token的信息流汇聚更为明显，而图像token的汇聚则相对较弱，甚至对输出token没有什么贡献这些深层可能依赖于浅层收集的信息，并结合LLM的知识，降低了对图像直接关注的依赖。

15 幻觉

论文结论：GPTs and Hallucination Why do large language models hallucinate-CSDN博客	当一个主题有普遍共识，并且有大量语言可用于训练模型时，大模型的输出可以反映出该共识观点在没有足够关于主题的语言示例【晦涩/数据有限】，或者主题有争议，或是对主题没有明确共识的情况下，就有可能生成似是而非的结果（幻觉）

16 moe

论文略读：GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding -CSDN博客	2021 ICLR 第一个将 MoE 的思想拓展到 Transformer 上的工作


论文略读：On the Embedding Collapse When Scaling Up Recommendation Models-CSDN博客	如果只是简单地将每个特征的嵌入表征的长度拉长，虽然模型的参数量会线性增大，但是由于大部分特征的有效维度很小，导致模型效果提升幅度不大，甚至有所下降 ——>提出了多嵌入范式 (Multi-Embedding Paradigm) 为所有的特征 ID 学习多套嵌入表征，并且基于每套嵌入表征学习独立的专家网络最后基于MoE 输出最终预估值
论文笔记：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models-CSDN博客	• 细粒度专家分割 • 将每个专家 FFN 分割为 m 个更小的专家，将 FFN 的中间隐藏维度减少到原来的 1/m 倍 • 为了保持相同的计算成本，激活的专家数量也增加到 mK 个 • 共享专家隔离 • 隔离一部分专家作为共享专家，这些共享专家始终处于激活状态 • à 捕获和整合跨上下文的共同知识
论文笔记：TIME-MOE: BILLION-SCALE TIME SERIES FOUNDATION MODELS WITH MIXTURE OF EXPERTS_timer moe-CSDN博客	提出了TIME-MOE，一个可扩展的统一架构，用于预训练更大规模、更强能力的预测基础模型，同时降低计算成本由一系列仅包含解码器的Transformer模型组成，采用专家混合架构，以自回归方式运行，支持任何预测范围，并可处理最长达4096的上下文长度首次将时间序列基础模型扩展至24亿参数规模

论文略读：MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels-CSDN博客	202401 arxiv	提出了一种新的模型结构MoE-LLaVA与训练策略MoE-tuning，可构建具有大量参数但计算成本恒定的稀疏模型
论文略：ACloser Look into Mixture-of-Experts in Large Language Models-CSDN博客		202406 arxiv Mixtral可能包含具有独特属性的专家 DeepSeek和Grok的专家权重矩阵的相似性通常低于Mixtral（DeepSeek和Grok专家的矩阵级相似性通常接近零，而Mixtral专家的相似性平均约为0.3）如图1中的Mixtral热力图所示，不同专家的权重在较深层次的相似性较低（越深的层次，专家的多元性越大） Wup、Wdown和 Wgate在其相似性热力图中共享相似的模式
论文笔记 LLaMA-MoE:Building Mixture-of-Experts from LLaMAwith Continual Pre-training_llama moe论文-CSDN博客	2024 ACL	从现有的LLM中建立稀疏的MoE模型将transformer解码器块中的前馈网络(FFN)转换为专家网络然后继续训练转换后的LLaMA-MoE-v1模型
论文笔记：PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning-CSDN博客	202407 arxiv	LM在持续学习过程中容易出现灾难性遗忘 ——>提出了一种渐进的非对称专家混合架构（PMoE），兼顾了持续学习中的知识保留和适应新知识
论文笔记：MoEJetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Task_moe jetpack: from dense checkpoints to adaptive mi-CSDN博客	Neurips 2024	提出了MoE Jetpack，一种将预训练密集检查点微调到MoE模型中的新方法利用密集预训练的沉没成本来增强MoE模型的性能，并加速收敛过程
论文略读：Multimodal Instruction Tuning with Conditional Mixture of LoRA-CSDN博客	ACL 2024	论文在LoRA阶段使用MOE
论文略读：Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large _klotski: efficient mixture-of-expert inference via-CSDN博客	ACL 2024	提出了expert pruning，省空间 MoE 有很多专家，就算推理阶段不用，部署的时候也需要部署下来，还是要占空间的 ——>在部署前剪枝
论文略读：Harder Tasks Need More Experts: Dynamic Routing in MoE Models-CSDN博客	ACL 2024	基于阈值 threshold 的路由方法，让每个 token 可以动态选择 1 到多个专家人工设置一个超参数阈值，t 对于每个 token，把所有专家按分数从大到小排列，然后选择排名前几的专家，使这些专家分数总和大于 t
论文笔记：Interpretable Cascading Mixture-of-Experts for Urban Traffic Congestion Prediction-CSDN博客	2024 KDD	首次将MoE架构应用于行业级的拥堵预测应用提出了一种自适应图学习专家（MAGLs）模块（上游图专家、下游图专家、全局图专家），并通过稀疏门控机制选择性地激活为了增强模型对潜在数据缺失和噪声的鲁棒性，引入了两个专门的专家，分别关注捕捉稳定趋势和周期性模式采用有序回归策略缓解由于专家的归纳偏差和固有的类别不平衡问题而导致的专家过度自信，促进专家之间的有益合作
论文笔记：Multi-Head Mixture-of-Experts-CSDN博客	2024 neurips	提出了多头混合专家（MH-MoE）采用了多头机制，可将每个输入 token 分成多个子 token 然后将这些子 token 分配给一组多样化的专家并行处理，之后再无缝地将它们整合进原来的 token 形式
论文笔记：Autonomy-of-Experts Model-CSDN博客	202501 arxiv	论文提出了一种新的MoE范式——专家自治（AoE）这一设计基于专家能够意识到其处理输入的能力，并且这种意识反映在其内部激活的规模上 AoE允许专家决定是否自主处理输入
论文略读：Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts-CSDN博客	TPAMI 2025	多模态大模型+MOE
论文笔记： MOE++: ACCELERATING MIXTURE-OF-EXPERTS METHODS WITH ZERO-COMPUTATION EXPERTS-CSDN博客		MOE++引入了“零计算专家”，这个机制的引入使得MOE++ MoE++还让每个Token在选择专家时参考前一层的路由路径
论文略读：Graph Mixture of Experts and Memory-augmented Routers for Multivariate Time Series Anomaly Dete_mixture of graph experts for cross-subject emotion-CSDN博客	AAAI 2025	提出了 Graph-MoE,用于多变量时间序列异常检测现有方法中常见的一个局限是：在整个图上，GNN 本质上是“同质”的，即强制所有节点共享相同的聚合机制，而不考虑它们节点特征或邻域的差异但实际上，有些节点可能青睐于更远距离的信息聚合，有些则青睐于更近邻居的信息聚合
论文略读 Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-E-CSDN博客	阿里 20250205	每个设备在处理数据时，会记录自己选择了哪些专家以及选择的频率在每次梯度更新之前，所有设备需要把自己记录的专家选择情况汇总起来（通信）通过汇总所有设备的专家选择情况，可以计算一个全局的负载均衡损失
论文略读 ST-MoE: Designing Stableand Transferable Sparse Expert Models-CSDN博客		稳定的MOE

17 text embedding

论文略读：Matryoshka Representation Learning-CSDN博客	2022 Neurips
论文笔记：Enhancing Sentence Embeddings in Generative Language Models-CSDN博客	2024 ICIC 设计了两种简单但有效的提示工程方法：假设思维链（Pretended Chain of Thought, CoT）和知识增强（Knowledge Enhancement），以改善生成模型在直接推理设置下的句子表示能力
论文笔记：Scaling Sentence Embeddings with Large Language Models-CSDN博客	2024 ACL findings 如何使用LLMs表示句子嵌入，并且提示工程是否有效？设计了一套prompt 上下文学习是否能提升句子嵌入的质量？ ——>通过添加定义句子和相应的词作为示例进行上下文学习，性能可以进一步提高将当前对比学习框架融入LLMs后能取得哪些改进？通过采用对比学习可以进一步提高性能。当模型参数超过数十亿时，参数规模是否依然有效？从数百万个参数到数十亿个参数的过渡，能够提高STS任务的表现。然而，继续扩大参数规模可能不会带来更多的改善。即使是上下文学习，66B的OPT在STS任务上仍然不如6.7B的OPT 尽管如此，扩大模型规模能提高迁移任务的性能。具有数十亿参数的LLMs在没有任何微调的情况下，仍展现出强大的性能，甚至达到了最新的状态。
论文略读：Uncovering Hidden Representations in Language Models_linearity of relation decoding in transformer lang-CSDN博客	202502 arxiv 对于下游任务，语言模型的中间层在所有架构和任务中始终优于最后一层这挑战了使用最后一层表示的传统观点。