neural network
文章平均质量分 94
train neural network on datasets
香蕉也是布拉拉
email: yuhan.huang@whu.edu.cn
github:https://github.com/pilipala5
展开
-
LLM | 论文精读 | CVPR | 基于问题驱动图像描述的视觉问答增强引言
本文提出了一种增强视觉问答(VQA)性能的新方法,通过生成问题驱动的图像描述作为中间步骤,将上下文信息有效融入到问答过程中,尤其在零样本场景中展现出显著的优势。研究通过关键词提取技术使描述与问题紧密结合,从而提高了模型的理解和推理能力。实验结果表明,问题驱动的描述对提升多种问题类型的回答准确性效果显著,特别是在验证和属性类问题上。未来工作将着眼于更大规模语言模型的集成和对模型可解释性的提升。原创 2024-11-08 17:03:54 · 481 阅读 · 0 评论 -
LLM | 论文精读 | AAAI | EarthVQA:向可查询地球迈进的多模态视觉问答研究
EarthVQA 是一个用于地球遥感场景理解的多模态视觉问答(VQA)数据集,包含 6000 幅高分辨率遥感图像及 208,593 对问答对。该项目旨在推动复杂地理场景中对象关系推理的研究。为此,我们提出了对象感知的语义框架(SOBA),通过深度语义分割和混合注意力机制提升模型性能。在实验中,SOBA 在对象计数和关系推理任务上表现出色,显著优于现有方法。本文详细介绍了 EarthVQA 数据集设计、SOBA 框架的构建及各模块的性能贡献,为遥感信息智能化提供了新方向。原创 2024-11-03 23:29:09 · 1107 阅读 · 0 评论 -
LLM | 论文精读 | CVPR | SelTDA:将大型视觉语言模型应用于数据匮乏的视觉问答任务
本文提出了SelTDA(Self-Taught Data Augmentation)方法,用于在数据稀缺的视觉问答(VQA)任务中增强大规模视觉语言模型(VLM)的性能。SelTDA通过教师模型生成图像的伪标签(问题和答案),然后用这些标签对学生模型进行训练,实现了在无需额外人工标注的情况下扩充数据集。该方法主要包括教师模型训练、伪标签生成和学生模型微调三个步骤。实验结果表明,SelTDA不仅提升了模型在数据稀缺任务中的表现,还显著增强了其跨领域泛化能力和数值推理能力。原创 2024-11-02 20:37:25 · 1714 阅读 · 0 评论 -
LLM | 论文精读 | 地学视觉语言大模型:Towards Vision-Language Geo-Foundation Model: A Survey
Towards Vision-Language Geo-Foundation Model: A SurveyYue Zhou, Litong Feng, Yiping Ke, Xue Jiang, Junchi Yan, Xue Yang, Wayne Zhang未提供。原创 2024-10-31 22:57:06 · 1137 阅读 · 0 评论 -
LLM | 论文精读 | NeurIPS 2023 | SWIFTSAGE: 结合快思考与慢思考的生成智能体
SWIFTSAGE的目标是通过结合快思与慢思两个模块,来实现复杂交互任务的高效解决。SWIFT 模块:这是一个小型的编码-解码语言模型,通过模仿学习对其进行微调,用于模拟人类的直觉思维。它能够快速解码出下一个动作,适合简单且直接的任务。SAGE 模块:使用类似于 GPT-4 的大型语言模型,模拟深度分析的推理过程。规划阶段和执行阶段。规划阶段负责生成高层次的任务建议,执行阶段则将这些建议转化为可执行的具体操作。原创 2024-10-28 01:42:42 · 900 阅读 · 0 评论 -
LLM | 论文精读 | 基于LLM的智能体的崛起与潜力(The Rise and Potential of Large Language Model Based Agents: A Survey)
基于大型语言模型的智能体通过大脑、感知和行动三个模块,展现了强大的自然语言交互和环境感知能力。无论是在单一应用还是在多智能体协作、人与智能体交互方面,LLM智能体都表现出了巨大的潜力。尽管面临挑战,但未来的智能体将会更加智能化、自动化,并且在人类的日常生活中扮演越来越重要的角色。原创 2024-10-25 19:07:00 · 779 阅读 · 0 评论 -
LLM | 论文精读 | 基于大型语言模型的自主代理综述
基于大型语言模型的自主代理综述原创 2024-10-25 14:03:02 · 1124 阅读 · 0 评论 -
LLM | Hugging Face | 如何利用几句代码实现强大的AI效果(pipeline)?
pipeline()是 Transformers 库中一个高层次的 API,用于快速加载模型并执行推理任务。无论是文本分类、情感分析,还是机器翻译,甚至是语音识别,pipeline()都提供了一个简便的方法来进行处理,无需开发者手动加载模型、分词器或特征提取器等。原创 2024-10-20 14:33:17 · 726 阅读 · 0 评论 -
LLM | Hugging Face | 微调属于自己的大模型(Fine Tuning)
利用hugging face进行模型微调原创 2024-10-15 01:23:15 · 1140 阅读 · 0 评论 -
LLM | Tokenization 从原理与代码了解GPT的分词器
GPT Tokenizer原理与代码原创 2024-10-11 00:24:46 · 1256 阅读 · 0 评论 -
State of ChatGPT ---- ChatGPT的技术综述
关于预训练、微调、强化学习... 引导入门把,技术细节不是很深入。原创 2024-10-06 23:31:50 · 1071 阅读 · 0 评论 -
Transformer从0阅读,从原论文《attention is all you need》开始向你深入浅出的解释注意力机制与Transformer -- 架构补充与广播机制
Transformer中的掩码与整体结构,详细解释广播机制原创 2024-08-24 20:03:06 · 1030 阅读 · 0 评论 -
Transformer从0阅读,从原论文《attention is all you need》开始向你深入浅出的解释注意力机制与Transformer,并利用Pytorch进行复现 -- 架构实现篇
从论文开始了解注意力机制与transformer,并复现原创 2024-08-19 20:31:35 · 516 阅读 · 0 评论 -
Decision Tree Regression决策回归树原理与代码实现,并与MLP进行对比(Pytorch), sklearn,numpy(超级详细,0基础!)
今天我们继续学习决策树,对于决策树中的回归树,我们进行原理的讲解与案例的实现,与此同时,我复习了一下MLP的Pytorch实现,其中并没有调用太多的库函数,大家应该也能看懂。我们对比一下两个模型的效果,发现对于非线性的拟合,神经网络的效果还是明显优于决策树。原创 2024-08-13 14:03:05 · 822 阅读 · 0 评论