算法学习笔记
文章平均质量分 92
大模型与计算机视觉
这个作者很懒,什么都没留下…
展开
-
多模态大模型 Qwen2-Audio 开源,让语言聊天更流畅
团队已经在一系列基准数据集上进行了实验,包括 LibriSpeech、Common Voice 15、Fleurs、Aishell2、CoVoST2、Meld、Vocalsound 以及 AIR-Benchmark,以评估 Qwen2-Audio 与团队之前发布的 Qwen-Audio 以及各项任务中的最先进模型相比的表现。在所有任务中,Qwen2-Audio 都显著超越了先前的最佳模型或是 Qwen-Audio。当前的大语言模型现在已经能够理解语言并进行推理,并且已经扩展到了更多的模态,包括视觉和音频。原创 2024-10-02 10:41:18 · 277 阅读 · 0 评论 -
多模态大模型 Qwen2-VL 下载、推理、微调实战案例来了
进行微调。在这里,我们将展示可直接运行的demo。在开始微调之前,请确保您的环境已准备妥当。原创 2024-10-02 10:25:18 · 585 阅读 · 0 评论 -
一文彻底搞懂多模态 - 多模态理解+视觉大模型+多模态检索
最近这一两周看到不少互联网公司都已经开始秋招发放Offer。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。原创 2024-10-02 09:53:20 · 374 阅读 · 0 评论 -
一文彻底搞懂多模态 - 基础术语+基础知识+多模态学习
最近这一两周看到不少互联网公司都已经开始秋招发放Offer。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。原创 2024-10-02 09:26:43 · 583 阅读 · 0 评论 -
算法工程师面试常考手撕题
最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。原创 2024-09-21 19:24:43 · 958 阅读 · 0 评论 -
一文彻底搞懂大模型 - LLM的构建流程
最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。原创 2024-09-21 19:18:39 · 802 阅读 · 0 评论 -
面试字节视觉大模型算法岗,太难了。。。
最近这一两周看到不少互联网公司都已经开始秋招提前批面试了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。今年是大模型场景落地爆发的一年,各大厂商都在将大模型与自身业务相结合。最近我们星球一成员吐槽字节视觉大模型算法工程师,太难了。。原创 2024-09-08 16:25:21 · 739 阅读 · 0 评论 -
小白学大模型 RAG:GraphRAG 概念、组成和流程
GraphRAG是一种结合了检索(Retrieval)和生成(Generation)的技术,它通过利用外部知识库来增强大型语言模型(LLMs)的性能,有效解决了模型可能出现的“幻觉”问题、领域知识缺失以及信息过时等问题。GraphRAG通过图结构信息,能够更精确地检索和生成与上下文相关的响应。GraphRAG技术通过在生成过程中融入检索组件来提升生成内容的质量和相关性。原创 2024-09-08 16:19:39 · 1440 阅读 · 0 评论 -
面完阿里 AIGC 大模型算法岗,心态崩了。。。
最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。原创 2024-09-01 16:01:55 · 994 阅读 · 0 评论 -
一文彻底搞懂大模型 - LLM四阶段技术
在预训练模型的基础上,针对特定任务或数据领域,通过在新任务的小规模标注数据集上进一步训练和调整模型的部分或全部参数,使模型能够更好地适应新任务,提高在新任务上的性能。为什么需要Fine-tuning?尽管预训练模型已经在大规模数据集上学到了丰富的通用特征和先验知识,但这些特征和知识可能并不完全适用于特定的目标任务。微调通过在新任务的少量标注数据上进一步训练预训练模型,使模型能够学习到与目标任务相关的特定特征和规律,从而更好地适应新任务。原创 2024-09-01 15:57:19 · 954 阅读 · 0 评论 -
一文梳理有效提升大模型 RAG 效果的方法
RAG 是 “Retrieval-Augmented Generation”(检索增强生成)的缩写,它通过结合检索系统和生成模型来提高语言生成的准确性和相关性。RAG 的优势在于它能够在生成响应时引入外部知识,这使得生成的内容更加准确和信息丰富,对于处理需要专业知识或大量背景信息的问题尤其有效。随着大型语言模型(LLMs)的发展,RAG 技术也在不断进化,以适应更长的上下文和更复杂的查询。目前,大部分公司倾向于使用 RAG方法进行信息检索,因为相比长文本的使用成本,使用向量数据库的成本更低。原创 2024-08-29 18:09:31 · 1035 阅读 · 0 评论 -
掌握大模型 Prompt 写作秘籍
▐主观的说:好的PROMPT就像与你的老朋友聊天,既清晰又相关,还得简单直白。换位思考:检查你的PROMPT,AI能不能一口气朗读下来换位思考想象下AI读你的话时是否顺畅。如果AI在读的时候停顿,每次停顿就像高中上台朗读课文时的尴尬瞬间,那你的PROMPT需要“减肥”了。像和朋友聊天一样好的PROMPT就像和朋友聊天,不要过分复杂又要清晰明了。你只需要知道自己想要什么,让AI知道你要什么,那一切都简单得像吃个大馒头一样爽。转载 2024-08-29 18:04:58 · 1196 阅读 · 0 评论 -
大模型训练实战经验总结
通过解析训练流程、微调策略选择、资源需求评估,以及中文模型训练的独到见解,本文为读者勾勒出一幅清晰的大模型训练全景图。进一步也揭示了如何有效评测模型性能,确保其在知识广度、逻辑推理、情感理解等多维度达到高标准,为推动AI技术在各行各业的创新应用提供了宝贵的实操指南。原创 2024-08-29 17:57:04 · 1196 阅读 · 0 评论 -
AIGC 大模型实践总结回顾和心得分享
而他们的底座就是大模型(Large Models),大模型在人工智能领域通常指的是具有大量参数的(通常包含十亿甚至千亿参数)、复杂计算结构和强泛化能力的机器学习模型。其主要特点包括:大量参数:大模型拥有庞大的参数量,通常包含十亿甚至千亿参数,远超过传统的小型模型。使其具备极高的表达能力,能够模拟和学习非常复杂的函数关系。强大的学习能力:由于参数量巨大,这些模型具有强大的学习和泛化能力,能够在各种任务上达到或超越人类的表现。原创 2024-08-11 11:01:19 · 853 阅读 · 0 评论 -
一文彻底搞懂大模型参数高效微调(PEFT)
最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,加入我们。原创 2024-08-11 10:41:32 · 2558 阅读 · 0 评论 -
行业落地分享:阿里云搜索RAG应用实践
生成的答案应基于可靠的数据源,减少错误信息的产生。原创 2024-08-10 17:01:04 · 870 阅读 · 0 评论 -
去字节面试大模型算法岗,体验极佳!!
自我介绍llama2中使用的注意力机制是什么?手写实现下分组注意力。了解langchain吗?讲讲其结构。对位置编码熟悉吗?讲讲几种位置编码的异同RLHF的具体工程是什么?包含了几何模型?分别讲讲 encoder-only, decoder-only, encoder-decoder 几种大模型的代表作。具体讲讲 p-tuning, lora 等微调方法, 并指出他们与传统fine-tuning微调有何不同。显存不够一般怎么解决的?几种主流大模型的 loss 了解过吗?有哪些异同?原创 2024-08-10 16:50:31 · 719 阅读 · 0 评论 -
三个视角讲透混合专家大模型(MoE)
DeepSpeed-MoE 创新性地引入了残差 MoE(Residual-MoE)架构,其中每个 token 都由一个固定专家外加一个门控选择的专家进行处理,实现了每一层都有两个专家参与处理,同时也不会让通信成本超过 top-1 门控方法。举个例子,Xue et al. 的论文《Go wider instead of deeper》提出了模型宽度增大的 WideNet,其做法是将前向网络(FFN)替换成 MoE 层,同时维持 Transformer 层上的共享可训练参数,但归一化层除外。原创 2024-07-28 22:44:00 · 1119 阅读 · 0 评论 -
万亿token!史上最大多模态数据集诞生
图 1 比较了这些数据集。不过,相比于开源的文本数据集,现有的开源多模态数据集都比较小、多样性也不足,并且来源基本都是 HTML 文档 —— 这就限制了数据的广度和多样性。可以看到,对于 VQA(视觉问答)任务,在 MINT-1T HTML 文档上训练的模型表现优于在 OBELICS 训练的模型,但前者在视觉描述任务上表现更差一些。而在更为复杂的多模态推理任务上,如表 3 所示,用 MINT-1T 训练的模型在 MMMU 上优于用 OBELICS 训练的模型,但在 Mantis-Eval 基准上不及后者。原创 2024-07-28 22:41:10 · 964 阅读 · 0 评论 -
使用 Pytorch 中从头实现去噪扩散概率模型(DDPM)
以上就是我们介绍的扩散概率模型(DDPM)的实现过程。我们首先讨论了如何为生成MNIST数据创建模型,包括将图像从默认的28x28尺寸填充到32x32,以符合原论文的标准。在优化方面,我们选择了Adam优化器,并结合指数移动平均(EMA)来提高生成质量。在模型训练部分,我们遵循了一系列明确的步骤,包括数据的噪声化、利用UNET进行预测及误差优化。我们还引入了基本的检查点机制,以便在不同的训练周期中暂停和恢复训练。原创 2024-07-20 23:08:29 · 1143 阅读 · 0 评论 -
《AIGC 实战宝典》(2024版) 正式发布!
2024 新年伊始,OpenAI 推出文生视频 Sora,风靡整个科技圈。最近又发布了 ChatGPT-4o,这是一个全新模型,不仅能处理文本,还能实时理解和生成音频和图像。OpenAI 用实际行动给全世界的科技公司又上了一课。如何从0到1玩转 ChatGPT、如何使用 Midjourney 生成图、如何基于开源模型,比如:Stable Diffusion XL Turbo、Qwen-VL,进行文生图的模型训练和推理呢?基于实战经验,我写了这本《 AIGC 实战宝典》(2024版) 共计35w+字。原创 2024-07-20 22:49:27 · 498 阅读 · 0 评论 -
推荐 4 个 yyds 的AI开源项目!
最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。大家好,今天继续聊聊科技圈发生的那些事儿~原创 2024-07-15 10:01:27 · 558 阅读 · 0 评论 -
字节算法岗面试,效率贼高
技术面试主要问简历项目内容和专业相关知识,也有业务场景提出方案与策略。在回答业务场景并设计方案的时候,确实之前没有遇到过,所以感觉自己也答的磕磕绊绊,比较好的是,面试官最开始会详细讲解具体是什么场景。HR 面想在实习中学到什么/如果offer不过你会做什么/到岗时间和时长/在做项目的过程中遇到的困难/有无考博打算15分钟很快结束,我还以为凉了,后来发现好像基本都是这个时间。字节的面试流程很规范,每次都会hr提前联系约面。流程进度也很快,从面试到offer时间为10天。原创 2024-07-15 09:52:59 · 1105 阅读 · 0 评论 -
基于大语言模型(LLM)的合成数据生成、策展和评估的综述
截至2024年6月,Hugging Face上已有超过300个被标记为“合成”的数据集,许多主流LLMs利用高质量的合成数据进行训练,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。Gilardi et al., 2023)表明,人类生成的数据由于其固有的偏见和错误,可能并不是模型训练或评估的最佳选择。原创 2024-07-13 16:07:41 · 884 阅读 · 0 评论 -
基于 PyTorch 的人脸关键点检测
计算机真的能理解人脸吗?你是否想过Instagram是如何给你的脸上应用惊人的滤镜的?该软件检测你脸上的关键点并在其上投影一个遮罩。本教程将文章你如何使用PyTorch构建一个类似的软件。在本教程中,我们将使用官方的DLib数据集,其中包含6666张尺寸不同的图像。此外,labels_ibug_300W_train.xml(随数据集提供)包含每张人脸的68个关键点的坐标。下面的脚本将在Colab笔记本中下载数据集并解压缩。原创 2024-07-13 09:59:03 · 892 阅读 · 0 评论 -
大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型
主要指基于Transformer的预训练语言模型(PLMs),包含数十亿至数百亿的参数。原创 2024-07-06 23:38:50 · 872 阅读 · 0 评论 -
YOLOv9:在自定义数据上进行图像分割训练
变量 dataDir 表示对象分割模型的训练数据所在的目录路径。训练数据存储在一个名为 “sam_preds_training_set” 的目录下,该目录位于 “/content” 目录下的 “Furniture” 目录中。类似地,变量 workingDir 表示存储主要工作文件的目录路径。1. num_classes = 2:这个变量指定了模型将被训练以分割的类别或分类的总数。在本例中,num_classes 设置为 2,表示模型将学习识别两个不同的物体类别。原创 2024-07-06 17:09:35 · 789 阅读 · 0 评论 -
好消息!Stable Diffusion 3 允许商业化,很快开源更大版本模型
7月6日凌晨,著名开源大模型平台Stability AI修改了社区许可协议,最新发布的文生图模型Stable Diffusion 3 Medium允许商业化(以下简称“SD3-M”)。,包括数据微调、开发生成式AI应用等。这个消息对于个人开发者和初创企业来说是相当好的,可以免费商用目前最强的文生图片模型之一,可与闭源模型Midjourney、DALL·E 3相媲美,同时学术研究机构仍然不受限制地使用SD3-M那个协议不变。原创 2024-07-06 17:04:09 · 1074 阅读 · 0 评论 -
面了大模型算法岗,被疯狂拷打。。。
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。这两天求职群分享了很多大厂的算法岗面试真题,大模型、AIGC、LLM相关的面试题特别多。要知道现在这类岗位需求增量非常大,而且很高薪!于是Amusi整理了大模型面试高频题,希望对你有所帮助(1. 位置编码有哪些?2. 介绍LoRA与QLoRA3. RAG和微调的区别是什么?原创 2024-07-06 17:01:10 · 1003 阅读 · 0 评论 -
从头开始构建一个小规模的文生视频模型
生成对抗网络是一种深度学习模型,其中两个神经网络相互竞争:一个从给定的数据集创建新数据(如图像或音乐),另一个则判断数据是真实的还是虚假的。这个过程一直持续到生成的数据与原始数据无法区分。原创 2024-06-30 18:36:32 · 708 阅读 · 0 评论 -
一文讲透大模型 Qwen2 的训练与推理
通义千问最近问鼎开源模型Top 1 ,今天我来分享一下Qwen2系列模型,Qwen2系列模型是Qwen1.5系列模型的重大升级。包括了:5个尺⼨的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B;在中⽂英语的基础上,训练数据中增加了27种语⾔相关的⾼质量数据;多个评测基准上的领先表现;代码和数学能⼒显著提升;增⼤了上下⽂⻓度⽀持,最⾼达到128K tokens(Qwen2-72B-Instruct)。原创 2024-06-29 09:43:12 · 2450 阅读 · 0 评论 -
这是我见过的大模型 RAG 优化方案与实践最全总结了
随着ChatGPT的兴起,大语言模型再次走进人们的视野,其在NLP领域表现出的语言识别、理解以及推理能力令人惊叹。越来越多的行业开始探索大语言模型的应用,比如政务、医疗、交通、导购等行业。通义系列、GPT系列、LLama系列等模型,在语言交互场景下表现十分抢眼。以Gemini为代表这类大模型甚至发展出了视觉和听觉,朝着智能体的方向演化。他们在多个指标上展现的能力甚至已经超过了人类。原创 2024-06-29 09:37:51 · 2114 阅读 · 0 评论 -
面了小米多模态算法岗,办事效率真高啊。。。
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今天跟我们社群一位球友,交流面试小米经历。最大的感受:小米的面试流程推进很快,每场面试几乎间隔一两天。原创 2024-06-25 22:09:51 · 1202 阅读 · 0 评论 -
如何在大模型落地过程中使用高级 RAG 技术?
基本 RAG 的工作流程可分为三个步骤:索引、检索和生成。在索引阶段,文本被转换为嵌入,然后存储在向量数据库中以创建可搜索的索引。在检索步骤中,用户的查询也被转换为嵌入,此嵌入用于在向量数据库中搜索最相关的文本数据。最后,在生成步骤中,查询会使用先前检索到的相关文档进行增强,大型语言模型会使用此增强的提示来生成对用户问题的答案。高级 RAG是在基本RAG流程基础上添加了很多新步骤(子步骤)。以下是本文将讨论的增强点列表,但总体列表并不仅限于这些。原创 2024-06-25 22:03:30 · 1083 阅读 · 0 评论 -
大模型 GLM-4-9B 开源,模型表现超越!!!
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。原创 2024-06-25 21:57:41 · 1135 阅读 · 0 评论 -
卷了两周,拿到了商汤视觉算法岗Offer(实习)
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。原创 2024-06-22 21:02:29 · 768 阅读 · 0 评论 -
面试 Momenta 感知算法岗,面试官真的很 Nice
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。最近面了 Momenta,总体来说,面试官的问题都很有水平,而且会从很多我之前没考虑过的角度对我提出建议,没有生硬的八股,总体面试体验很不错,效率也很高。原创 2024-06-22 20:52:35 · 880 阅读 · 0 评论 -
扩散模型 GLIDE:35 亿参数的情况下优于 120 亿参数的 DALL-E 模型
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。原创 2024-06-22 20:21:23 · 928 阅读 · 0 评论 -
一文详解去噪扩散概率模型(DDPM)
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。去噪扩散概率模型(DDPM)是一种新颖的高质量图像生成方法。现在事实证明,扩散模型可以轻松超越标准生成对抗网络(GAN)。我们有一个正向过程和一个反向过程。前向过程向图像添加高斯噪声。这将导致均值和单位方差为零的高斯分布。在相反的过程中,我们尝试从高斯噪声分布中重新创建图像。原创 2024-06-19 22:42:54 · 1878 阅读 · 0 评论 -
一文详解扩散模型
2.1、统计学简介在统计学中,一切都是分布(Distribution),到处都是分布。统计学的根本目的就是获得数据分布。只要得到了数据的分布,那一切问题都迎刃而解。但现实数据的分布往往是不可得的,是极其复杂的,所以统计学在应用中到处充满假设:假设样本服从独立同分布原理;假设噪声服从高斯分布;假设特征之间相互独立等。翻开机器学习或者数理统计的书籍,到处充满着假设。没办法,现实问题太复杂!如何获得复杂的未知分布呢?最常用的方法就贝叶斯推断。2.2、贝叶斯推断贝叶斯推断的目的就是:找出复杂的未知分布。原创 2024-06-19 22:17:33 · 1719 阅读 · 0 评论