大语言模型文献调研专栏目录

AI菜鸟

已于 2024-04-09 18:24:46 修改

阅读量757

点赞数 12

分类专栏：大语言模型文献调研文章标签：语言模型人工智能自然语言处理

于 2024-04-03 15:39:00 首次发布

本文链接：https://blog.csdn.net/qq_37261357/article/details/137346917

版权

本专栏收录有关大语言模型相关的最新论文简介，以帮助相关领域的研究者快速了解行业动向和技术原理的简要介绍。为了便于读者查阅，这里整理了本专栏的文献目录，并随时更新。

CSDN专栏链接：http://t.csdnimg.cn/MWGtr

多模态大模型文献综述系列（更新中）

发表时间	文章来源	文章简称	文章标题	跳转正文
2023	arXiv	-	Video understanding with large language models: A survey	简介
2024	arXiv	-	MM-LLMs: Recent Advances in MultiModal Large Language Models	简介

多模态大模型方法系列（更新中）

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI菜鸟

关注关注

12
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大模型行业案例之生物医学：生物科学大模型调研

06-29

1525

大模型：大模型通常指的是参数量较大、层数较深的机器学习模型，例如深度神经网络。这些模型具有大量的可训练参数，通过在大规模数据集上进行训练，能够更好地捕捉数据中的复杂模式和特征。结论：工业界和生物相关的大自然语言模型都**偏向医疗行业（用于问诊等），没有生物科学知识（如基因组学等）相关的。**也就是说，类似于定位的生物科学-大自然语言模型，目前工业界是没有的。大语言模型：大语言模型是指具有大规模训练参数的语言序列处理模型。情感分析：分析文本中的情感倾向，如正面、负面、中性等。的能力的大语言模型。

多模态大语言模型调研《MM-LLMs: Recent Advances in MultiModal Large Language Models》简要介绍

qq_37261357的博客

04-03

1678

题目：MM-LLMs: Recent Advances in MultiModal Large Language Models论文：https://arxiv.org/pdf/2401.13601.pdf?项目主页：https://mm-llms.github.io/GPT诞生以来，一向以强大的自然语言处理能力而著称，人们试着将大型语言模型（Large Language Models，LLM）的强大推理和生成能力在除文本以外的模态数据上应用起来。例如图像、视频、音频、3D点云等。

参与评论您还未登录，请先登录后发表或查看评论

视频大语言模型调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》解读

qq_37261357的博客

04-03

1705

大型语言模型(LLMs)已经表现出了出色的理解和遵循用户意图和指令的能力。研究人员通常将用户请求和LLMs的响应都以文本形式表达，但是，在许多应用场景下，仅限于文本的人机交互并不足够，真实世界的信息通常是多模态的。现有工作的不足。为了进一步探索LLMs的潜力，许多研究人员尝试赋予LLMs理解多模态内容的能力。包括使用大量交织的图像-文本数据或语音-文本数据对多模态LLMs进行大规模预训练，以适应多模态输入。或者采用更高效的参数方式，通过补充LLMs与现成的视觉或语音基础模型来实现多模态理解。

多模态大语言基座模型KOSMOS-1《Language Is Not All You Need: Aligning Perception with Language Models》论文简要介绍

qq_37261357的博客

04-09

1845

本文是关于NIPS2024论文《Language Is Not All You Need: Aligning Perception with Language Models》的简要介绍。这项工作提出了一个多模态大语言模型框架：KOSMOS-1，在语言理解、生成、无OCR的自然语言处理、感知-语言任务和视觉任务等方面的出色表现。

当推荐系统遇见大语言模型：通往未来的三条路径

Paper weekly

05-20

1809

©作者 | 张月鹏单位 |得物研究方向 | 搜推算法前言自从大语言模型爆火之后，大家对大语言模型（LLM）如何成功应用在推荐系统进行了不少尝试。个人一直觉得 LLM 在工业界推荐系统大部分情况还是离线应用，生成一些特征或者文本。至于其直接用作召回和排序模块，个人对这块的观点一直是比较悲观的。出于两点考虑：1）推理耗时问题，大模型的推理耗时难以满足推荐系统快速响应的体验要求；2）基于 ID 和用户...

如何加速大模型推理？万字综述全面解析大语言模型高效推理技术

Paper weekly

07-03

652

许多研究工作致力于设计优化大语言模型推理开销的技术，优化模型的推理延迟、吞吐、功耗和存储等指标，成为许多研究的重要目标。为了对这些优化技术有更全面、更系统的认知，为大语言模型的部署实践和未来研究提供建议和指南，来自清华大学电子工程系、无问芯穹和上海交通大学的研究团队对大语言模型的高效推理技术进行了一次全面的调研和整理，在《A Survey on Efficient Inference for La...

大模型理解与生成三维点云：CVPR《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》介绍

qq_37261357的博客

04-16

3743

视频理解大模型调研论文《Video Understanding with Large Language Models: A Survey》简要介绍

qq_37261357的博客

04-03

7947

Vid-LLMs在生成视频内容简洁摘要方面起着至关重要的作用，分析视觉和听觉元素以提取上下文感知摘要的关键特征。这种应用在新闻聚合和内容策展中至关重要。它们还对视频编辑领域作出贡献，如现有文献所述。此外，在特定领域，如广告编辑，也存在应用场景。

大模型思维链论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》简要介绍

qq_37261357的博客

04-03

1948

本文是关于2022年NIPS论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的简要技术介绍。论文提出使用思维链提示（Chain-of-thought Prompting）可以有效促进大语言模型的逐步推理能力，进而获得更加准确的效果，尤其对于需要逐步推理的任务。

垂直智能体：企业AI落地的正确打开方式

chainso23的博客

05-18

710

在一次重大投资决策中，这个智能体通过详细的财务模型和风险分析，帮助企业识别了原计划中被忽视的潜在风险，优化了投资策略，最终实现了比预期高的投资回报。上述企业管理与运营领域的成功案例清晰地表明，真正有价值的智能体不是简单地调用模型或拼凑功能，而是通过深度融合领域知识、专业流程和企业特定数据，形成清晰的内部逻辑，最终成为企业决策和运营的可靠助手。高效的垂直智能体需要具备强大的任务记忆能力，能够在多轮交互中保持上下文理解，记住用户的需求和偏好，避免重复询问或提供不一致的回答。

联想推出擎天AI适配中心，智能体部署开启“交钥匙”新模式

weixin_43735236的博客

05-16

535

根据中研普华产业研究院的《2025-2030年中国AI大模型行业竞争格局分析与未来趋势预测报告》分析，2025年中国AI大模型市场规模预计将突破495亿元，大模型技术正在全行业快速演进，其中智能体成为企业AI落地的重要形式，特别是在政务、金融、医疗等对数据可控性要求极高的行业，本地化部署几乎已成共识。面对快速演进的市场环境，ISV常常陷入部署难、适配难、交付慢等难题——擎天AI适配中心的推出，正是为了解决这些关键痛点，帮助开发者在智能体的部署过程中，跳过复杂的搭建过程，专注于业务模型开发与客户交付。

咖啡叶子病害检测数据集VOC+YOLO格式1468张4类别均为单叶子

FL1623863129的博客

05-17

542

标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):["Cercospora","Miner","Phoma","Rust"]数据集格式：Pascal VOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)特别声明：本数据集不对训练的模型或者权重文件精度作任何保证，数据集只提供准确且合理标注。标注数量(xml文件个数)：1468。标注数量(txt文件个数)：1468。

Baklib赋能企业知识资产AI化升级

weixin_51374429的博客

05-18

958

Baklib作为AI驱动的一站式知识中台，深度融合大数据与智能技术，助力企业实现知识资产数字化升级。通过构建安全可控的多语言知识库体系，帮助百度、京东等500强企业激活沉睡数据，提升60%AI数据准备效率，实现内容智能管理、多场景输出及业务创新，打造可视化AI Ready知识引擎，加速数字化转型进程。

ApiHug 咋变成国外AI工具了呢？

程序员超级伴侣-ApiHug

05-16

1084

摘要：ApiHug是一个专注于API设计和开发的平台，提供高度描述性、模块化和可视化的体验。它集成了API资产的分发、监控和管理功能，支持全语言在IDEA中的智能自动补全、linting和语法高亮等。ApiHug通过标准化的API设计元语言，旨在提高API开发效率和团队协作。其主要功能包括API设计、代码生成、模块共享、版本控制和统一IDE支持。目标受众为API开发者和团队，使用场景涵盖API设计、性能监控和智能提示。用户可通过官网注册、安装插件并开始使用ApiHug的各类功能。

[模型部署] 1. 模型导出

ayiya_Oese的博客

05-16

1205

本文详细介绍了如何将深度学习模型导出为不同部署格式，包括ONNX、TorchScript等，并对比了各种格式的优缺点及适用场景。

ROS2使用yoloV12，V11，V10，V9，V8，V5等

最新发布

qq_35598561的博客

05-19

231

ROS2使用yoloV12，V11，V10，V9，V8，V5等

RiDoc：高效文档扫描与图像处理工具，助力高效办公

2501_90839605的博客

05-15

1152

高效压缩算法：在保证图像质量的同时显著减小文件体积，适合存储和传输需求。多格式兼容：支持主流图像格式（BMP/JPEG/PNG/TIFF）及PDF、Word文档的导入与导出。OCR功能强大：内置多语言OCR识别，可直接提取扫描文档中的文字并编辑，无需手动输入。操作便捷：界面简洁直观，拖拽式操作降低学习成本，支持一键扫描、批量处理。安全性高：提供水印添加、加密传输等保护措施，防止文档泄露或篡改。

《Python星球日记》第95天：分布式训练与推理

Code_流苏：在代码中寻诗意，在实践中觅真知

05-19

675

《Python星球日记》第95天：分布式训练与推理，今天，我们将探索分布式训练与推理技术，这是解决大规模AI模型训练和部署挑战的关键方法

数字人技术的核心：AI与动作捕捉的双引擎驱动（210）

m0_74825409的博客

05-18

627

AI 与动作捕捉技术的深度融合，正在重构数字人的 “生命体征”。随着 5G、AR/VR 技术的普及，数字人将从单一功能载体进化为具备自主意识的虚拟生命体，成为连接物理世界与数字空间的超级入口。未来的数字人不仅是技术的集合体，更是人类情感与智慧的数字化延伸。我们正站在一个新的时代起点上，见证着数字人技术带来的变革与创新。在这个虚实共生的新纪元中，数字人将与我们的生活、工作、娱乐深度融合，创造出无限可能的未来。

unet模型改进专栏

03-25

### UNet 模型改进的最佳实践 #### 1. UNet++ 的改进思路 UNet 是一种经典的用于医学图像分割的神经网络架构，其核心特点是编码器-解码器结构以及跳跃连接的设计。然而，在实际应用中，UNet 存在一些局限性，例如特征融合不足和对复杂场景适应能力有限等问题。为了克服这些问题，研究人员提出了多种改进方案。其中，UNet++ 是一种显著的改进版本[^2]。它通过引入密集跳过连接（dense skip connections），增强了不同尺度特征之间的交互作用。具体来说，UNet++ 将传统的单路径跳跃连接扩展为多路径跳跃连接，从而允许更深层次的信息流动。这种方法不仅提高了模型的表达能力，还减少了梯度消失的风险。 #### 2. 剪枝技术的应用除了结构调整外，模型压缩也是 UNet 改进的重要方向之一。特别是在资源受限环境下（如移动端设备），减少模型大小而不损失性能显得尤为重要。剪枝是一种有效的模型压缩手段，可以通过移除冗余权重来降低计算成本和存储需求。根据已有研究显示，当 L2 正则化后的效果与未正则化的 L4 层接近时，模型内存消耗可节省约 18 倍[^1]。这一发现表明合理运用正则化技术和剪枝策略能够显著改善 UNet 的效率。以下是实现简单剪枝的一个 Python 示例代码片段： ```python import tensorflow as tf def prune_model(model, pruning_percentage=0.1): pruned_weights = [] for layer in model.layers: if isinstance(layer, tf.keras.layers.Conv2D): weights = layer.get_weights() # Calculate the threshold based on percentage to prune. weight_matrix = weights[0] flattened_weights = tf.reshape(weight_matrix, [-1]) k = int(tf.size(flattened_weights).numpy() * pruning_percentage) values, _ = tf.math.top_k(tf.abs(flattened_weights), k=k) mask = tf.cast(tf.greater_equal(tf.abs(weight_matrix), values[-1]), dtype=tf.float32) new_weight_matrix = tf.multiply(mask, weight_matrix) pruned_weights.append(new_weight_matrix.numpy()) else: pruned_weights.extend(layer.get_weights()) pruned_model = tf.keras.models.clone_model(model) pruned_model.set_weights(pruned_weights) return pruned_model ``` 此函数实现了基于绝对值大小的选择性删除操作，适用于 CNN 中常见的 Conv2D 类型图层。 #### 3. 大规模实验驱动的研究哲学值得注意的是，无论是开发新架构还是优化现有算法，都需要遵循科学严谨的态度来进行探索。正如 UNet++ 论文作者所强调那样，“不应过分拘泥于特定超参设置”，而是应更多聚焦于整体设计理念及其背后逻辑思考过程。只有如此才能跳出局部最优陷阱，推动领域向前发展。 --- ###