Paper Reading
文章平均质量分 90
论文阅读
E的工程笔记
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Attention Is All You Need [译]
Attention Is All You Need摘要1 引言2 背景3 模型架构3.1 编码器与解码器堆栈编码器:解码器:3.2 注意力机制3.2.1 缩放点积注意力机制3.2.2 多头注意力机制3.2.3 注意力机制在模型中的应用3.3 位置级前馈网络3.4 嵌入与Softmax3.5 位置编码4 为何选择自注意力机制5 训练5.1 训练数据与批处理5.2 硬件与训练计划5.3 优化器5.4 正则化残差连接中的Dropout标签平滑6 结果6.1 机器翻译翻译 2025-05-06 20:00:15 · 318 阅读 · 0 评论 -
通过基于 Transformer 的算法 在 TESS 全帧图像中 识别系外行星凌日候选体
Exoplanet Transit Candidate Identification in TESS Full-Frame Images via a Transformer-Based Algorithm原创 2025-02-17 13:47:50 · 1110 阅读 · 0 评论 -
InfiniteHiP - 在单个GPU上扩展 LLM 上下文至300万tokens
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU原创 2025-02-15 17:51:13 · 1419 阅读 · 0 评论 -
SelfCite - LLM中 上下文归因 的自监督对齐
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models原创 2025-02-18 21:15:00 · 1091 阅读 · 0 评论 -
DeepSeek-R1: 通过强化学习激励 LLM 中的推理能力
DeepSeek-R1: 通过强化学习激励 LLM 中的推理能力原创 2025-02-16 07:15:00 · 1198 阅读 · 0 评论 -
DeepSeek-V3 技术报告
DeepSeek-V3 通过创新的架构设计、高效的训练策略和强大的性能表现,成为了当前最强的开源语言模型之一。其在数学和代码任务上的卓越表现,以及与闭源模型相当的性能,展示了开源模型在推动 AI 技术进步方面的巨大潜力。未来,DeepSeek 将继续在架构、数据和推理能力上进行探索,推动模型向通用人工智能(AGI)迈进。2025-02-15(六)原创 2025-02-17 20:15:00 · 1822 阅读 · 0 评论 -
mmE5 - 通过高质量合成数据 提升多模态多语言嵌入
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data原创 2025-02-15 16:15:00 · 1044 阅读 · 0 评论 -
SQuARE - 用于LLM 中增强思维链 的 序列问答推理引擎
SQuARE通过引入自我质疑的范式,系统性地分解复杂查询,显著提升了大型语言模型的推理能力。该方法在多个问答数据集上表现出色,尤其是在较小的模型上表现尤为突出。未来的研究可以进一步优化子问题的生成和计算效率,以扩展其应用范围。2025-02-15(六)原创 2025-02-15 16:15:00 · 1206 阅读 · 0 评论 -
LM2 - Large Memory Models 大型内存模型
LM2 - Large Memory Models 大型内存模型原创 2025-02-13 19:15:00 · 1183 阅读 · 0 评论 -
SynthDetoxM - 现代LLM是少样本的并行去毒化数据标注器
这篇论文提出了一个 用于生成多语言平行去毒化数据的管道,并介绍了**SynthDetoxM**,一个包含16,000个高质量去毒化句子对的多语言平行文本去毒化**数据集**,涵盖德语、法语、西班牙语和俄语。数据集通过九种现代开源LLM以少量样本的方式生成去毒化文本。实验表明,在数据有限的情况下,使用SynthDetoxM训练的模型表现 优于在人工标注的MultiParaDetox数据集上 训练的模型。论文还公开了数据集和代码,以促进多语言文本去毒化的研究。原创 2025-02-12 19:31:32 · 1019 阅读 · 0 评论
分享