
论文笔记
文章平均质量分 69
UQI-LIUWJ
这个作者很懒,什么都没留下…
展开
-
论文笔记:Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion P
本文提出GLAFF框架,解决时间序列预测中全局信息利用不足的问题。现有方法主要依赖数值数据,对节假日等非平稳因素处理不佳。研究表明去除时间戳对现有模型影响甚微,反映全局特征利用率低。GLAFF作为通用框架可集成到任何预测模型,通过增强全局信息利用来提升鲁棒性。其采用"先预测后增益"的机制,在不改变主干模型结构的前提下改善预测性能。原创 2025-05-29 19:35:16 · 96 阅读 · 0 评论 -
论文略读: STREAMLINING REDUNDANT LAYERS TO COMPRESS LARGE LANGUAGE MODELS
摘要:2025ICLR提出一种新型模型剪枝方法,通过计算层间输入输出的余弦相似度判断重要性,剪除连续冗余层并用轻量网络替代。相比传统LoRA方法,该方法仅需前向传播收集隐藏状态,训练时仅优化轻量网络,显著降低GPU内存消耗。层替换策略通过MSELoss蒸馏训练补偿性能损失,比直接训练剩余层更高效合理,实现了模型结构的优化压缩。原创 2025-05-29 16:58:29 · 197 阅读 · 0 评论 -
论文略读No More Tuning: Prioritized Multi-Task Learning with Lagrangian Differential Multiplier Methods
【摘要】AAAI2025论文提出了一种无需调参的多目标学习方法NMT,通过拉格朗日乘子法实现目标优先级控制。针对两目标场景,该方法在保证高优先级目标T1性能不受损的前提下,通过交替更新模型参数θ(梯度下降)和拉格朗日乘子λ(梯度上升)来优化次要目标T2,并引入梯度重缩放技术防止参数剧烈波动。该方法可扩展至多目标场景,通过分层优化实现各目标的优先级控制,为多任务学习提供了一种理论严谨的自动化解决方案。原创 2025-05-29 00:25:02 · 189 阅读 · 0 评论 -
论文略读:Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Traini
论文研究了低比特量化对大型语言模型(LLM)性能的影响,发现量化效果与模型训练程度密切相关:对于训练不足的LLM(训练token<1000亿),低比特量化性能可接近fp16/bf16;但随着训练深入,量化导致的性能下降(QiD)会显著增大。研究提出了量化版的scaling law,指出模型越大、训练数据越少、量化精度越高时,QiD越小。这表明大模型对量化更鲁棒,而充分训练的模型对量化更敏感。作者将QiD作为判断LLM是否充分训练的新指标——若低比特量化的QiD≈0,说明模型尚未充分训练。该研究为LLM原创 2025-05-28 23:43:38 · 133 阅读 · 0 评论 -
论文略读:Deep reinforcement learning for community architectural layout generation
本文提出一种多智能体系统方法优化社区建筑布局。在给定地块边界、建筑参数(尺寸、数量)和间距约束条件下,通过训练多个智能体来调整建筑位置,替代传统基于规则的方法。每个智能体代表一个建筑物,通过执行动作优化布局,最终输出所有建筑的中心点坐标。该方法旨在生成更合理的建筑空间配置方案。原创 2025-05-28 22:41:01 · 177 阅读 · 0 评论 -
论文略读:If Multi-Agent Debate is the Answer, What is the Question?
多智能体辩论(MAD)方法旨在通过多智能体辩论提升大模型推理效果,但实验表明其在36种配置中胜率不足20%,表现不如单智能体Chain-Of-Thought方法。研究提出Heter-MAD改进方案,通过引入异构模型智能体(无需修改框架结构),显著提升了MAD性能,最高达30%。实验覆盖5种MAD框架、9个数据集和4种基础模型,证实了模型多样性对协作效果的关键作用。原创 2025-05-23 23:47:22 · 518 阅读 · 0 评论 -
论文笔记:Mobility-LLM: Learning Visiting Intentions and Travel Preferences from Human Mobility Data wit
NeurIPS 2024论文提出了一种基于大语言模型(LLM)的框架Mobility-LLM,旨在深入挖掘签到序列中的语义信息,以全面理解用户的访问意图和出行偏好。现有方法多局限于特定任务,如位置或时间预测,而Mobility-LLM通过预训练的LLM,能够从签到序列中有效提取语义,捕捉用户的短期访问意图和长期出行偏好。论文提出了访问意图记忆网络(VIMN)和人类偏好的共享提示(HTPP),分别用于建模用户的访问意图和跨领域的出行偏好。实验表明,Mobility-LLM在多个签到分析任务中达到了SOTA或相原创 2025-05-18 20:43:44 · 241 阅读 · 0 评论 -
论文辅助笔记:Harder Tasks Need More Experts: Dynamic Routing in MoE Models (modelling_moe.py)7
注:如果带kv cache的话,那么expand_mask这边的tgt_len就是tgt_len+past_len。原创 2025-04-11 22:22:45 · 265 阅读 · 0 评论 -
论文辅助笔记:Harder Tasks Need More Experts: Dynamic Routing in MoE Models(infer.py)
原创 2025-04-10 16:29:12 · 203 阅读 · 0 评论 -
论文略读:CLEAR: Contrastive Learning for Sentence Representation
2020 arxiv。原创 2025-02-27 12:28:39 · 231 阅读 · 0 评论 -
论文略读:SimCSE: Simple Contrastive Learning of Sentence Embeddings
EMNLP 2021。原创 2025-02-27 12:03:21 · 268 阅读 · 0 评论 -
论文略读:Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hype
随机样例表征均匀分散在超球面上。原创 2025-02-27 11:54:23 · 220 阅读 · 0 评论 -
论文笔记:Scaling Sentence Embeddings with Large Language Models
2024 ACL findings原创 2025-02-24 16:42:29 · 546 阅读 · 0 评论 -
论文略读:Matryoshka Representation Learning
2022 Neurips原创 2025-02-24 14:35:24 · 350 阅读 · 0 评论 -
论文笔记:Autonomy-of-Experts Model
AoE在负载平衡方面优于传统的MoE模型,无论是否使用负载均衡loss。原创 2025-02-23 20:48:17 · 436 阅读 · 0 评论 -
论文笔记:MoEJetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Task
Neurips 2024原创 2025-02-23 09:56:04 · 242 阅读 · 0 评论 -
论文略读:Uncovering Hidden Representations in Language Models
说一下主要结论吧,对于下游任务,语言模型的中间层在所有架构和任务中始终优于最后一层原创 2025-02-22 22:14:36 · 537 阅读 · 0 评论 -
论文笔记:PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning
当路由器位于深层附近时(即 τ=24),不平衡问题自动得到解决,所有专家都得到了良好的分配。τ=24 时,分配模式更为多样,表明专家的使用更加全面。模型在适中的 τ下表现最佳,且计算成本与 τ成反比。浅层致力于通用能力,而深层则针对新获得的能力进行定。τ=6 时,大多数令牌主要分配给专家 2 或 8。原创 2025-02-22 20:39:53 · 307 阅读 · 0 评论 -
论文略读:Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
TPAMI 2025多模态大模型+MOE。原创 2025-02-22 13:04:42 · 263 阅读 · 0 评论 -
论文略读:RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
2024 Neurips原创 2025-02-22 12:35:42 · 251 阅读 · 0 评论 -
论文略读:MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels
202401 arxiv实验。原创 2025-02-20 20:18:21 · 216 阅读 · 0 评论 -
论文笔记:Text Is All You Need: Learning Language Representations for Sequential Recommendation
商品集合表示为I,用户的交互序列为,序列推荐的目标是基于现有交互序列去估计下一个交互的item论文中每一个ii都对应的是商品的属性字典k是属性,v是属性值平展成sequence,就是每个商品的序列。原创 2025-02-20 15:00:19 · 152 阅读 · 0 评论 -
论文笔记:How Much Can Time-related Features Enhance Time Series Forecasting?
(这个仅我觉得其实不是很严谨,还是用了时间序列变量的数据【不可能不用的】)原创 2025-02-19 23:04:34 · 443 阅读 · 1 评论 -
论文笔记: MOE++: ACCELERATING MIXTURE-OF-EXPERTS METHODS WITH ZERO-COMPUTATION EXPERTS
在MoE++中,动词激活的FFN专家数量最多,其次是名词,而拆分后的词片激活的FFN数量最少。效果差不多(甚至更好)的情况下,速度快了很多。三种零计算专家的消融实验。原创 2025-02-19 16:10:01 · 304 阅读 · 0 评论 -
论文笔记: TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large
实验结果。原创 2025-02-17 22:31:07 · 223 阅读 · 0 评论 -
论文笔记:Are we there yet? Revealing the risks of utilizing large language models in scholarly peer revi
文章的作者可以通过在文中插入微小、几乎不可见的指令性文字,即可轻松引导审稿模型强调文章的创新性与影响力,同时弱化文章的缺陷。原创 2025-02-17 15:25:02 · 192 阅读 · 0 评论 -
论文略读:Multimodal Instruction Tuning with Conditional Mixture of LoRA
ACL 2024。原创 2025-02-17 12:08:20 · 250 阅读 · 0 评论 -
论文略读:Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large
ACL 2024。原创 2025-02-17 12:04:43 · 201 阅读 · 0 评论 -
论文略读:Harder Tasks Need More Experts: Dynamic Routing in MoE Models
ACL 2024原创 2025-02-17 11:57:48 · 300 阅读 · 0 评论 -
论文笔记:Multi-Head Mixture-of-Experts
2024 neurips原创 2025-02-14 13:28:11 · 493 阅读 · 0 评论 -
论文笔记:Learning embedding features based on multisense-scaled attention architecture to improve the pr
2021 Briefings in Bioinformatics原创 2025-02-14 11:19:27 · 194 阅读 · 0 评论 -
论文略读 ST-MoE: Designing Stableand Transferable Sparse Expert Models
这两个都能提高稳定性,但是模型质量显著下降。LayerNorm换RMSNorm。原创 2025-02-12 14:52:48 · 503 阅读 · 0 评论 -
论文略读:GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
第一个将 MoE 的思想拓展到 Transformer 上的工作。原创 2025-02-12 12:34:12 · 137 阅读 · 0 评论 -
论文笔记 LLaMA-MoE:Building Mixture-of-Experts from LLaMAwith Continual Pre-training
2024 ACL。原创 2025-02-11 15:24:28 · 689 阅读 · 0 评论 -
论文笔记:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
如果专家分布在多个设备上,负载不均衡会加剧设备间的计算瓶颈,影响整体计算效率。:设置为一个较小的值(例如0.01),以防止过度的平衡约束影响模型性能。:设置为一个较大的值(例如0.05),以优先确保设备间的负载均衡。——>确保每个专家都能被均匀地选择,能得到充分的训练。原创 2025-01-24 18:26:24 · 564 阅读 · 0 评论 -
论文笔记:TIME-MOE: BILLION-SCALE TIME SERIES FOUNDATION MODELS WITH MIXTURE OF EXPERTS
和之前模型不同的是,在TIME-MOE的推理过程中,T和H可以是任意长度。原创 2025-01-20 13:02:44 · 597 阅读 · 0 评论 -
论文略读:On the Embedding Collapse When Scaling Up Recommendation Models
2024 ICML。原创 2025-01-16 19:55:33 · 398 阅读 · 0 评论 -
论文略读:ASurvey of Large Language Models for Graphs
2024 KDD。原创 2025-01-15 23:33:41 · 702 阅读 · 0 评论 -
论文笔记:FDTI: Fine-grained Deep Traffic Inference with Roadnet-enriched Graph
将交通系统建模为一个交通流动图G=(V,E)V 是包含 N个交通流动的集合每个交通流动 vi 是具有相同运动方向 di∈{左转,直行,右转} 的车道集合。E 是交通流动之间的连接集合每条有向边eij 表示从交通流动 vi到交通流动 vj的连接(虚线不算FTSTG的边)原创 2025-01-08 22:17:54 · 535 阅读 · 0 评论 -
论文/讲座笔记:Fundamental limitations offoundational forecasting modelsThe need for multimodality and ri
2024 neurips的一个workshop。原创 2025-01-03 01:04:22 · 881 阅读 · 0 评论