自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(243)
  • 收藏
  • 关注

原创 重磅消息!《AIGC 面试宝典》(2024版) 正式发布!

2022 年下半年以来,文本生成图像快速出圈,多款应用持续火爆。国外文生图代表:Midjourney、Stable Diffusion、OpenAI 的 DALL-E:海外模型SD开源,进一步促进了国内大厂的研究热情和应用落地:随着多模态技术迭代,图像生成、视频生成、3D生成、音频生成等 AIGC 应用加速落地,相关岗位需求特别旺盛。节前,我们星球群组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-05-20 09:09:27 1895

原创 重磅消息!《大模型实战宝典》(2024版) 正式发布!

2024 年刚开年,OpenAI 推出的文生视频工具 Sora 再次风靡全球,成为 OpenAI 继 ChatGPT 之后新的生成式 AI 标杆。关于大模型的话题不断涌现,令人应接不暇,截至到目前,国内大模型已发布数量超过200个。去年我们写了一本《大模型实战宝典》(以下简称《实战宝典》),有很多小伙伴订阅,反馈内容通俗易懂,有基础知识做铺垫,收获了很多。今年年初开始,就开始计划内容大版本升级,前期也做了很多准备工作。

2024-03-23 09:04:57 981

原创 重磅消息!《大模型面试宝典》(2024版) 正式发布!

2022 年11月底,OpenAI 正式推出 ChatGPT ,不到两个月的时间,月活用户就突破1亿,成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个,大模型的出现彻底改变了我们的生活和学习方式。现在只要你想从事 AI 相关的岗位,无论是计算机视觉(CV)、自然语言处理(NLP)、搜广推、风控等,大模型相关话题都是绕不开的。节前,我们星球群组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-03-23 09:01:30 1753

原创 熬了一个通宵,把国内外的大模型都梳理完了!

大家好,大模型越来越多了,真的有点让人眼花缭乱。为了让大家清晰地了解大模型,我熬了一个通宵把国内和国外的大模型进行了全面梳理,国内有189个,国外有20+,同时包括大模型的来源机构、来源信息和分类等。如果你想参与我们技术讨论、前沿技术分享,请加入我们。

2023-12-17 21:33:25 598

原创 整理了上百个开源中文大语言模型,涵盖模型、应用、数据集、微调、部署、评测

自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!

2023-12-17 16:07:38 3228

原创 行业大模型训练经验分享&落地思考

最后共勉:BERT时代况且还在用TextCNN,难道13B的模型就不叫大模型吗?

2023-12-14 23:47:32 755

原创 PyTorch 模型训练性能大揭秘:从基础到高级技巧一网打尽!

PyTorch 是一个开源的 Python 机器学习库,基于Torch,用于自然语言处理等应用程序。PyTorch既可以看作加入了GPU支持的numpy,也可以看成一个拥有自动求导功能的强大的深度神经网络,同时它也是大模型开发的首选工具。《PyTorch模型训练性能调优宝典》是解决PyTorch训练性能和效率问题的首选宝典。包括:AI/ML平台工程师、数据平台工程师、后端软件工程师、MLOps工程师、站点可靠性工程师、架构师、机器学习工程师以及任何希望掌握PyTorch性能调优技巧的专业人士。

2023-12-14 22:03:06 387

原创 LoRA 微调大模型的实践经验总结

在深度学习领域,特别是在大型语言模型(LLM)领域,模型的大小导致更新模型权重的成本非常高。假设我们有一个含有70亿参数的LLM,这些参数被表示在一个权重矩阵W中。在训练中,为了最小化损失函数,我们会计算一个ΔW矩阵,里面包含了对原始权重的更新信息。通常的权重更新过程如下:如果权重矩阵W包含70亿参数,那么权重更新矩阵ΔW也将包含70亿参数,计算ΔW将消耗巨大的计算和内存资源。为了解决这一问题,Hu等人提出了LoRA方法,该方法通过分解权重变化ΔW到一个低秩表示。

2023-12-12 22:29:09 1191

原创 使用 PyTorch 完全分片数据并行技术加速大模型训练

本文,我们将了解如何基于 PyTorch 最新的功能用库来训练大模型。

2023-12-11 22:51:52 426 1

原创 基于 LangChain 的优秀项目资源库

精选的使用 LangChain 的工具和项目列表。在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业,LangChain 是从事AI应用开发的人员或多或少都会接触到的框架。LangChain是一个令人惊叹的框架,可以在极短的时间内完成LLM项目,其生态系统正在快速发展。

2023-12-09 11:13:00 1528

原创 LangChain+通义千问+AnalyticDB向量引擎保姆级教程

1.创作文字,如写故事、写公文、写邮件、写剧本、写诗歌等;2.编写代码;3.提供各类语言的翻译服务,如英语、日语、法语、西班牙语等;4.进行文本润色和文本摘要等工作;5.扮演角色进行对话;6.制作图表等。如果直接使用通义千问API从0到1来构建应用,技术成本还是相对比较高的。幸运的是,当前已经有非常优秀的框架LangChain来串联AIGC相关的各类组件,让我们轻松构建自己的应用。

2023-12-08 23:37:14 1204

原创 记过去一年大模型实习经历与探索

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。大家好,今天分享一位好朋友过去一年在各个大厂和初创大模型公司实习的经历,现在大模型是风口,他的眼光和思考都值得我们认真体会和学习~:做出了比较出名的端侧小模型,一半梭哈Agent,一半梭哈端侧模型(LLM/VLM)的新型Scaling Law曲线。

2024-07-20 10:10:44 734

原创 Pytorch 高频使用代码集锦

nn.ReLU(),nn.ReLU(),return out卷积层的计算和展示可以用这个网站辅助。继承torch.nn.Module类写自己的loss。

2024-07-20 09:58:49 852

原创 从头开始学习扩散模型 Stable Diffusion

暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。今天我们来揭开 Stable Diffusion 技术的神秘面纱。

2024-07-14 09:52:22 638

原创 百度算法岗面试,问的贼细!

暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。百度是我年初找日常实习的第一个大厂,今天把实习面经分享出来,给广大焦虑的同学一些真实经验!面试官人特别 nice 会引导,说话特别随和亲切。主要是针对比赛,项目,论文一个个问。

2024-07-14 09:48:35 1044

原创 基于 LlamaIndex、Claude-3.5 Sonnet 和 MongoDB,构建具有超级检索能力的智能体

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。想象一下,AI 助手可以无缝地与你互动,动态地根据你的需求检索信息并完成任务。随着智能体检索增强生成(RAG)的兴起,这一愿景正逐渐成为现实。

2024-07-08 22:03:21 708

原创 3 个令人惊艳的 AI 开源工具,诞生了!

大家好,今天继续聊聊 AI 科技圈发生的那些事。分享几个最新好玩、实用的AI工具。更多最新技术,文末加入我们。

2024-07-08 21:55:11 1031

原创 5款极其强大的大模型文生图工具!

文生图技术是一种基于深度学习的技术,可以根据自然语言描述生成相应的高品质图像。下面介绍几个目前市场上比较优秀的工具或网站,并制作一张男性的白袍巫师图来比较。针对大模型和AIGC技术趋势、AIGC 算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

2024-07-06 14:45:06 947

原创 小红书算法岗面试,面试官还是很喜欢拷打的。。。

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。最近小红书又准备优化员工,不知道对我们是否有影响。这是前段时间我第一次尝试跨方向找算法岗,红书面试官还是很喜欢拷打的,会关注我这种CV多模态背景的推荐算法基础怎么样。小红书三位面试官给我的最大启发:是否能把自己的所学,用于解决特定问题(即便不是相关背景),才是候选人身上最大的闪光点。

2024-07-06 14:40:12 823

原创 对于初学者,该如何选择 LlamaIndex 与 LangChain ?

LlamaIndex 最适合初学者寻找简单、用户友好的框架,并提供清晰的文档和实际示例。此外,LlamaIndex 非常擅长处理数据。如果你正在寻找一个更强大、更灵活、具有广泛定制选项的框架,你应该选择 Langchain,记住学习曲线陡峭。通过考虑这些详细方面,你可以就哪种框架最适合你的需求和专业水平做出更明智的决定。

2024-07-02 21:43:38 823

原创 双非本 985 硕,我马上要入职上海AI实验室大模型算法岗

暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。:双非本,top5 硕士,研究方向是对话系统和图像处理,NLP 比赛 Top10(天池 / Kaggle),1 篇发明专利,1篇CCF-A。马上要入职了,祝愿球友们不断夯实自我,加油努力,收获钟意的offer~

2024-07-02 21:41:25 1147

原创 用通俗易懂方式讲解:快速部署大模型 ChatGLM3 并进行推理

ChatGLM3是由智谱AI与清华大学KEG实验室联合发布的第三代大型对话预训练模型。ChatGLM3具备高度的语言理解能力,能够准确理解用户的自然语言输入,并以流畅、连贯的方式生成回复,进行多轮对话。除了传统的文本交互,ChatGLM3还能够直接执行用户提供的代码片段,并调用外部工具或API来处理特定任务。这种能力极大地扩展了模型的应用范围,使其能直接参与到编程指导、数据分析、问题诊断等实际工作流程中。

2024-06-29 11:14:29 692

原创 用通俗易懂方式讲解:大模型 ChatGLM3 进行 LORA 高效微调全流程

lora微调原理论文:

2024-06-29 10:04:47 937

原创 大模型算法岗最频繁问的200道面试题总结(含答案)

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

2024-06-29 09:52:14 1324

原创 使用 HuggingFace 和 LangChain ,进行文本总结并转换为语言

接下来,使用加载的LLM,我们编写一个方法从文档部分创建摘要。该函数使用函数构建摘要链,并将其应用于文档块。map_reduce链类型能够有效地处理大文本摘要,分别处理每个块,然后结合结果。这里我们输入文本并处理以获得摘要。在这个例子中,文本被分割成部分,进行摘要,结果添加到结果列表中。这一步确保了对长文本的有效摘要。

2024-06-25 21:22:12 1082

原创 绝望中迎来曙光,阿里大模型算法岗 Offer 突然来了!

当前大模型岗位更加强调实践,如果没有做过大模型的项目且没有针对性准备过,很难回答上。大模型微调是很多公司的考察重点。几种模型的注意力机制、位置编码要熟悉。RLHF 的几步多熟悉熟悉。

2024-06-25 21:16:47 755

原创 小白学RAG:大模型 RAG 技术实践总结

RAG (Retrieval-Augmented Generation) 是一种结合信息检索与生成模型的技术。其主要目标是通过检索大量信息并使用生成模型进行处理,从而提供更加准确和丰富的回答。RAG技术在处理大规模文本数据时表现尤为出色,能够从海量信息中迅速找到相关内容并生成合适的响应。智谱RAG方案具体设计了如何将RAG技术应用到智能客服领域。方案包括以下几个关键环节:信息检索模块:从预先构建的知识库中快速找到与用户问题相关的内容。

2024-06-22 11:57:28 1277

原创 面完小红书算法岗,心态崩了。。。

暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。提前准备才是完全之策。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。最近一位同学跟我聊实习,面试了小红书,项目抠的很细,让他有点破防,又问了很多八股。。。心情很是低落。为什么现在面试都这么卷呢?为什么面试通过率这么低?前些年互联网蓬勃发展,AI 技术人才供不应求,相关专业毕业生不够用。稍微有些项目经验,工作就不用愁。

2024-06-22 11:47:44 875

原创 英伟达开源最强通用模型Nemotron-4 340B

Nemotron-4-340B-Base 模型架构是一种标准的仅解码器 Transformer 架构,具有因果注意力掩码、旋转位置嵌入 (RoPE)、SentencePiece tokenizer 等。Nemotron-4-340B-Base 的超参数如表 1 所示。它有 94 亿个嵌入参数和 3316 亿个非嵌入参数。下表为 Nemotron-4-340B-Base 模型的一些训练细节,表中总结了批大小渐变的 3 个阶段,包括每次迭代时间和模型 FLOP/s 利用率。

2024-06-16 17:36:20 801 1

原创 大模型高级 RAG 检索策略之流程与模块化

通过上面的示例,我们可以看到如何通过模块化和流程的方式来实现高级 RAG 检索功能,我们可以根据具体的需求,自定义不同的模块,然后将这些模块按照一定的顺序组合起来,形成一个完整的查询流水线。在 RAG 应用中,我们还可以定义多个查询流水线,用于不同的场景,比如问答、对话、推荐等,这样可以更好地满足不同的需求。关注我,一起学习各种人工智能和 AIGC 新技术,欢迎交流,如果你有什么想问想说的,欢迎在评论区留言。

2024-06-12 22:51:30 1007

原创 Transformer动画讲解:Softmax函数

暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。提前准备才是完全之策。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。Transformer的Softmax函数:用于将原始注意力分数转换为输入标记的概率分布。这种分布将较高的注意力权重分配给更相关的标记,并将较低的权重分配给不太相关的标记。

2024-06-10 00:04:36 1281

原创 Transformer动画讲解:Cross Attention

Cross Attention应用机器翻译:在机器翻译等序列到序列(Seq2Seq)的任务中,交叉注意力机制允许解码器在生成输出的每一步中,都能关注到输入序列中与当前步最相关的信息,从而生成更准确的输出。Self Attention:通过对序列中的每个元素(如词或图像patch)生成一个表示,并使用这个表示作为查询去关注序列中的其他元素,从而计算出一个新的表示。Cross Attention:交叉注意力的输入来自两个不同的序列,一个序列用作查询(Q),另一个序列提供键(K)和值(V),实现跨序列的交互。

2024-06-10 00:03:57 848

原创 Transformer 动画讲解:多层感知机

(2)Transformer的解码器也由多个相同的层堆叠而成,但每个层包含三个主要的子层:一个Masked Multi-Head Self-Attention机制(用于编码器的输出),一个Multi-Head Encoder-Decoder Attention机制(用于结合编码器的输出和解码器的当前位置信息),以及一个全连接的前馈神经网络(MLP)。(2)第二个线性变换层:将维度还原到与输入相同的大小,通过残差连接和层归一化,将MLP的输出与原始输入相加并进行归一化,以确保稳定的训练过程。

2024-06-09 00:04:22 999

原创 Transformer 动画讲解:注意力机制

当Attention模块处理包含“model”的句子时,它会查看句子中的其他单词(如“machine learning”或“fashion”),并确定这些单词与“model”之间的语义关系。以单词“model”为例,在“machine learning model”(机器学习模型)和“fashion model”(时尚模特)这两个不同的上下文中,它的含义是不同的。在自然语言处理(NLP)中,嵌入向量(Embedding Vector)是单词或文本片段的数值表示,它们捕捉了这些单词或文本片段的语义信息。

2024-06-09 00:02:45 1094

原创 Transformer 动画讲解:向量化

(1)对于文本数据:在自然语言处理(NLP)中,Tokenization 是一个关键步骤,它将输入的文本内容(如句子、段落或整个文档)拆分成更小的片段或元素,这些片段通常被称为词元(tokens)。“Embedding”在字面上的翻译是“嵌入”,但在机器学习和自然语言处理的上下文中,我们更倾向于将其理解为一种“向量化”或“向量表示”的技术,这有助于更准确地描述其在这些领域中的应用和作用。数值化表示:Embedding的目的主要是指将离散的高维数据(如文字、图片、音频、视频)映射到低维度的连续向量空间。

2024-06-09 00:01:43 674

原创 Transformer动画讲解:注意力计算Q、K、V

暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。提前准备才是完全之策。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。Transformer的起源:Google Brain 翻译团队通过论文《Attention is all you need》提出了一种全新的简单网络架构——Transformer,它完全基于注意力机制,摒弃了循环和卷积操作。注意力机制是全部所需。

2024-06-08 08:41:12 1279

原创 Transformer 动画讲解:单头注意力和多头注意力

暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。提前准备才是完全之策。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。Transformer的起源:Google Brain 翻译团队通过论文《Attention is all you need》提出了一种全新的简单网络架构——Transformer,它完全基于注意力机制,摒弃了循环和卷积操作。注意力机制是全部所需。

2024-06-08 08:29:38 822

原创 ChatGPT Edu 版本来啦:支持GPT-4o、自定义GPT、数据分析等

可以跨文本、视频、音频进行多模态推理,例如,让GPT-4o通过语音模式帮你讲解一道高数难题,它的讲解流程就像1V1私教那样一步一步的教你,会详细讲解每一步为什么这么做,而不是一下全部把答案发出来。据悉,这是一个专门为大学校园提供的ChatGTP,支持GPT-4o、网络搜索、自定义GPT、数据分析、代码生成等功能,可以极大提升学生、老师的学习质量和教学效率。提前准备才是完全之策。由于学生使用的频率较高,所以OpenAI调高了Edu版本的消息限制,每天可以和ChatGPT聊更多的内容。

2024-06-01 23:47:15 924

原创 使用大模型 Llama3 ,打造开发团队的私有的 Copilot

我们先看下 AI 问答功能, 输入问题后 LLM 生成回答:再看看代码生成功能,选中代码后后按住 cmd/ctrl + I 键会弹出输入框,我们在输入框中让 LLM 帮我们完成这个方法:接着看解释代码,选中代码后后按住 cmd/ctrl + L 键会将选中的代码复制到问答框中,输入问题后 LLM 根据代码进行回答:生成单元测试,也属于代码生成功能,与之前操作相同:关于Continue插件的更多使用方法,可以参考官方文档[11]。

2024-05-30 21:27:48 892

原创 比亚迪算法岗面试,问的贼细!

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。总结链接如下:《大模型面试宝典》(2024版) 正式发布!《AIGC 面试宝典》(2024版) 正式发布!暑期实习基本结束了,校招即将开启,这两天又有很多大厂的算法岗(CV、NLP、搜广推、大模型、AIGC等方向)面试真题整理出来了。这里特别整理了部分比亚迪的最新面试

2024-05-30 09:34:52 985

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除