经典推荐 多模态大模型:基础架构 图解DSPy:Prompt的时代终结者?! vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验 优雅谈大模型13:一文读懂LoRA/DoRA/MoRA 新鲜速递:图解新颖LLM的CoPE位置编码 专栏导航 综合性的调查报告打开是最合适的。 平时闲暇无事,订阅一份最新动态也是不错。 若理解大模型,想进一步的学习大模型,可以订阅大模型必备腔调。 若已经具备一定的基础,想系统性的学习大模型背后的基础原理,可以订阅LLM背后的基础模型 若已经是半个玩家,则可以订阅最新科技,亦或者订阅论文精读 若是侧重关心部署运维,则订阅AI架构设计专栏是不错的选择。 若对多模态或者具身智能感兴趣,可以订阅具身智能 主流架构索引 Mamba Mamba-2 xLSTM KAN TransFormer ViT 酸甜苦辣的模型们 Claude3.5:编码螃蟹游戏就是这么轻松 Gemma 2 Phi-3 Mini “最好的开放模型”,LLAMA3重磅来袭 GPT-4o: 从最难的“大海捞针”基准看起 SleepFM:利用对比学习预训练的多模态“睡眠”基础模型 Codestral横空出世:高级还是资深程序员 TimesFM: 预训练的时间序列基础模型 TSLANet:时间序列模型的新构思 多模态与具身智能 Llama 3-V: 比GPT4-V小100倍的SOTA Cephalo:专门用于仿生设计的多模态视觉大型语言模型 Chameleon:早期融合混合模态的基础模型 4M-21:霸气侧漏高效的20+多模态AI模型 Octo精武门 :开源的通用机器人模型 大模型的小配件 一文读懂OpenGVLab带来的最新视觉预训练框架 EAGLE系列,大模型的“草稿技术” 稀疏编码,直视大模型的灵魂深处 大模型的灵魂解读:Anthropic AI的Claude3 Sonnet可解释性研究 轻松读懂FlashAttention-1 轻松读懂FlashAttention-2 轻松读懂FlashAttention2 Vidur: 出手只需1小时,瞬间节省20万美元 “开放”的大模型到底有多“开放”?! 沉睡而且“狡猾”的特工:大模型也可以是! 新鲜速递:图解新颖LLM的CoPE位置编码 MIT提出基于Transformer的Cross-Layer Attention:江湖骗子还是奇思妙想 RAG专区 奇思妙想:多头RAG 大模型语料(数据治理) 论文精读:构建金融商业交易语料库 论文精读:基于BERT的医学影像报告语料库构建 论文精读:利用大型语言模型从儿科患者病历中提取社会决定因素:新型语料库与方法 速递FineWeb:一个拥有无限潜力的15T Tokens的开源数据集