自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;• 更优质的项目可以为未来创新创业提供基石。

2024-07-26 15:07:53 200

原创 聊聊普通工程师如何入坑大模型 | 附超详细教程!

前几天,跟强哥一起吃饭。他说,大模型的技术,真是太好玩了!他买了一台超高配置的游戏本,本来是想买回来打游戏放松放松的。结果后来发现,玩大模型的技术,比打游戏好玩太多了!我连连表示赞同,不错不错,关键是游戏本没白买啊,跑大模型正好也用得上(强哥是谁?不重要,你只需要知道是一位登上人生巅峰的技术大佬就好了)认真地说,以大语言模型 (LLM) 为核心的AI技术,正在如火如荼地席卷整个行业。技术的发展日新月异,几乎每天都有突破性的进展。现在这种状态,让我们俨然回到了十年之前移动互联网刚刚兴起的那个年代。

2024-07-26 15:06:08 738

原创 大语言模型(LLM)入门学习路线图

Github项目上有一个,它全面涵盖了大语言模型的所需的基础知识学习,LLM前沿算法和架构,以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识,并推荐了一系列优质的学习视频和博客,旨在帮助大家系统性地掌握大型语言模型的相关技术。

2024-07-26 14:55:02 633

原创 GPT(LLM)不是AGI的全部

在人工智能领域中,通用人工智能(AGI)、大型语言模型(LLM)、Transformers、扩散模型(Diffusion Models)和人类反馈的强化学习(RLHF)等技术之间存在着紧密的联系和相互作用,共同推动这一领域的进步。AGI代表了AI的终极目标,即在各种任务和环境中展现出与人类类似的适应性和灵活性。虽然我们距离实现AGI仍有很长的路要走,但当前的进展和研究为这一终极目标奠定了基础。这些技术的融合和发展,不仅扩展了我们对AI能力的理解,也为攻克复杂问题开辟了新途径。

2024-07-25 14:21:05 883

原创 LLM大模型开发生态总结与应用思考

通过以上的思考,逐渐认识到LLM与实际问题,在两个方面存在矛盾:• 精确性:结构化的数据、精确的数据• 实时性:没有修改和确认的机会大模型可理解很多语意,但无法实现精确性。于是我得出结论:凡是需要精确且实时的系统,都无法直接使用LLM。只有在不精确和离线环节下,大模型才有用武之地。

2024-07-24 11:38:02 847

原创 2024年最新AI大模型,一文带你走进AI搜索!

随着技术的不断进步,这些AI工具将更加深入我们的生活,成为我们探索知识、解决问题的得力助手。智能对话,数据分析,语音识别和多平台支持,提供智能化、便捷化、高效化的解决方案。功能:华为的盘古大模型,它不仅支持知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力集,还支持雷达、红外线、遥感,所以可以模拟真实的物理世界。**1.带搜索功能的AI:**就像我们的私人助理,能够理解我们的需求,提供精准搜索结果。亮点:科大讯飞推出的AI大模型,支持对话、写作、编程等功能,还能提供语音交互方式。

2024-07-22 16:49:36 849

原创 7款主流大模型实测:简单的数感测试全翻车

如果大模型的算法不够聪明,不是真正的数学思维,也会影响到答题的正确率。很多数理化的专业知识并不是大模型的强项,并且很多大模型是利用搜索把之前已有的解题的经验和知识的推理相结合,可以理解为在搜索内容上进行理解,如果搜索内容本就是错误的,那么大模型给到的结果必然错误。阿里旗下的通义千问在第一次回答中给到了一个错误答案,并且阐述的位置也是错误的,第二次虽然再次给出了错误答案,但其回答中识别到了3个字母r,只是一句“注意虽然 “rr” 是连续的,但它们仍然被计算为两个单独的字母。但不管怎样,答案确实是正确的。

2024-07-22 16:48:44 434

原创 从技术路径,纵观国产大模型逆袭之路

 3)6月,Antropic发布Claude 3.5 Sonnet,具备更强的代码和视觉能力,基准测试结果全方位碾压Gemini 1.5 Pro和Llama-400b,大部分优于 GPT-4o,一定程度上暂时代表着当前大模型性能最高水平。 GPT-4o多模态能力范围显著拓展:除了文本、图像等常用功能,GPT-4o还支持3D物品合成、文本转字体等多样化功能。在传统基准测试中,GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉功能上达到了新的高水位线。

2024-07-22 16:37:08 344

原创 LLM微调方法(Efficient-Tuning)六大主流方法:思路讲解&优缺点对比

由于LLM参数量都是在亿级以上,少则数十亿,多则数千亿。当我们想在用特定领域的数据微调模型时,如果想要full-tuning所有模型参数,看着是不太实际,一来需要相当多的硬件设备(GPU),二来需要相当长的训练时间。因此,我们可以选择一条捷径,不需要微调LLM的全量参数,而只需要新增少量的参数,通过固定原始模型参数,而只需要微调新增的少量参数,从而达到接近使用全参数full-tuning的效果。本章主要讲述在LLM时代,当下主流的微调方法。

2024-07-18 15:51:23 618

原创 【手撕LLM- KV Cache】为什么没有Q-Cache ??

1 是否需要Prefill1.1 不 Prefill 模拟计算生成1.2 Attention计算链1.3 Prefill的必要性1.4 Prefill 小结2 你的KV-Cache实际上有Q-Cache2.1 预测任务反推2.2 Q-cache传递链3 结论KV-CacheQ-Cache。

2024-07-17 14:18:24 582

原创 自己只能跑llama3-8b模型,告诉你一个免费使用llama3-70b的方法

我们前期介绍了Llama 3大模型,以及本地部署了Llama 3 8b模型,但是想体验一下llama3-70b的模型的话,需要很大的计算资源,且要求极高的内存。llama3-8b的模型约4.7G ,而llama3-70b的模型约40G,若想在自己的电脑上面加载llama3-70b的模型,可想而知需要多少的内存,多少的显卡资源。Llama 3是Meta AI开源的第三代Llama系列模型,其新的 8B 和 70B 参数 Llama 3 模型在Llama 2的基础上,实现了更大性能的提升。

2024-07-17 14:01:33 581

原创 LangChain 完整指南:使用大语言模型构建强大的应用程序

LangChain 是一个强大的框架,可以简化构建高级语言模型应用程序的过程。随着大模型的热度不断攀升,LangChain也获得了越来越多的开发人员亲睐。嗨,你好!让我向你介绍LangChain,这是一个非常棒的库,它能让开发者利用大型语言模型(LLMs)和其他计算资源来构建强大的应用。在这份指南中,我将快速概述LangChain的工作原理,并探讨一些很酷的使用案例,例如问答系统、聊天机器人和智能代理。我还会带你走过一个快速启动指南,帮助你开始使用。让我们开始吧!

2024-07-15 15:49:22 1078

原创 LLM安全 | 大语言模型应用安全解析

2023年以来,LLM 变成了相当炙手可热的话题,以 ChatGPT 为代表的 LLM 的出现,让人们看到了无限的可能性。ChatGPT能写作,能翻译,能创作诗歌和故事,甚至能一定程度上做一些高度专业化的工作,比如法律服务和医疗诊断咨询。然而,正如任何新技术一样,LLM 也带来了新的挑战和问题。我们如何确保它们的安全性,如何防止它们被用于不良目的?这些都是亟待解决的问题。

2024-07-13 17:16:37 671

原创 LLM 安全 | 大语言模型应用安全入门

2023年以来,LLM 变成了相当炙手可热的话题,以 ChatGPT 为代表的 LLM 的出现,让人们看到了无限的可能性。ChatGPT能写作,能翻译,能创作诗歌和故事,甚至能一定程度上做一些高度专业化的工作,比如法律服务和医疗诊断咨询。然而,正如任何新技术一样,LLM 也带来了新的挑战和问题。我们如何确保它们的安全性,如何防止它们被用于不良目的?这些都是亟待解决的问题。

2024-07-13 17:14:57 2094

原创 一文读懂 RAG:它将如何重新定义 AI 的未来?

RAG 可以利用来自外部来源的内容来生成准确的摘要,从而节省大量时间。借助支持 RAG 的应用程序,他们可以快速提取文本数据中最关键的发现,并做出更有效的决策,而无需阅读冗长的文档。RAG 技术是一种强大的工具,可以增强 LLM 的能力。通过结合预训练语言模型的强大功能以及检索和利用外部信息的能力,提供更准确和与上下文更相关的回答。尽管存在一些挑战和局限性,RAG 的未来依然有着强大的可能性。随着 AI 领域的不断进步,RAG 这样的工具一定会更加完善,这些工具将在塑造我们的数字未来方面发挥至关重要的作用。

2024-07-12 17:33:12 703

原创 写了 1000 条 Prompt 之后,我总结出了这 9 个框架【建议收藏】

如果你对于写 Prompt 有点无从下手,那么,本文将为你带来 9 个快速编写 Prompt 的框架,你可以根据自己的需求,选择任意一个框架,填入指定的内容,即可以得到一段高效的 Prompt,让 LLM 给你准确满意的回答。我将以为目标,为每一个框架提供不同的示例,以便于你能看出每个框架的区别,希望能够对你有所帮助。

2024-07-12 17:32:26 1372

原创 LLM 大模型入门笔记-Tokenizer

下图展示了完整的 tokenization 流程,接下来会对每个步骤做进一步的介绍。

2024-07-11 15:21:35 701

原创 上海交通大学推出 更适合企业落地大模型的《动手学大模型》LLM 实战课,课件+实战教程(分享)

来了来了!上海交通大学的大模型超超超级牛掰的大模型编程实战课公开了,课件+教程,本套实战教程旨在提供大模型相关的入门编程参考。通过简单实践,帮助同学快速入门大模型,更好地开展课程设计或学术研究。上海交大大模型实验室整了一份针对入门阶段的大模型教程,已经看完了非常不错,想要学大模型的程序员,产品经理都推荐~朋友们如果有需要全套 《》,​。

2024-07-11 15:17:19 673

原创 【LLM大模型】LangChain基本概念入门

在深入LangChain的细节之前,我们需要理解这个框架的核心价值和它在现代软件开发中的位置。什么是LangChain?LangChain是一个专为大型语言模型(LLM)设计的应用程序开发框架。它提供了一套工具和接口,使开发者能够轻松地将LLM集成到各种应用程序中,从而利用这些模型的强大语言理解和生成能力。起源与作用LangChain起源于对简化LLM集成的需求。它不仅支持开发者快速上手,还提供了从开发到部署的全流程支持。LangChain的出现,使得构建基于LLM的应用程序变得更加高效和直接。核心优势。

2024-07-10 17:54:16 668

原创 【LLM大模型】如何使用 LangChain 构建基于LLMs的应用——入门指南

大型语言模型(LLMs)是非常强大的通用推理工具,在各种情况下都非常有用。LangChain 是一个流行的框架,用于创建基于LLMs的应用程序。它考虑到了这些因素以及其他因素,并提供了与封闭源模型提供商(如OpenAI、Anthropic和[Google、开源模型以及向量存储等其他第三方组件)的广泛集成。本文将介绍使用LLMs和LangChain的Python库构建基础知识。唯一的要求是对Python有基本的了解——不需要机器学习经验!

2024-07-10 17:53:33 740

原创 一篇揭秘LLM翻译背后的语言特性与语种重要性,赶紧码住!

大型语言模型(LLMs)在多语言翻译任务上,在处理具有大量语料的语言(高资源语言)表现出色,但对于语料较少的语言(低资源语言)则效果较差。研究者们尝试利用与低资源语言相关的高资源语言来提升翻译性能,例如通过使用迁移学习和联合训练等方法。通过研究发现:训练数据中的存在对翻译质量有着显著的影响。然而,评估LLMs在机器翻译中的性能时,需要了解模型训练使用的具体语言、每种语言的数据量以及数据的性质。因为一种语言的数据可以促进模型在与其相似的语言的性能。

2024-07-09 18:07:21 622

原创 一篇带你搞懂 图神经网络(GNN)的基本原理!

本文结合一个具体的无向图来对最简单的一种GNN进行推导。本文第一部分是数据介绍,第二部分为推导过程中需要用的变量的定义,第三部分是GNN的具体推导过程,最后一部分为自己对GNN的一些看法与总结。节点特征向量lvl_vlv​:节点vvv的特征向量,如l1=(2,3)l_1=(2, 3)l1​=(2,3)。节点状态向量xvx_vxv​:节点vvv的状态向量。

2024-07-09 18:05:47 515

原创 欢迎 Llama 3:Meta 的新一代开源大语言模型_meta llama guard 2

Meta 公司的 Llama 3 是开放获取的 Llama 系列的最新版本,现已在 Hugging Face 平台发布。看到 Meta 持续致力于开放 AI 领域的发展令人振奋,我们也非常高兴地全力支持此次发布,并实现了与 Hugging Face 生态系统的深度集成。Llama 3 提供两个版本:8B 版本适合在消费级 GPU 上高效部署和开发;70B 版本则专为大规模 AI 应用设计。每个版本都包括基础和指令调优两种形式。

2024-07-08 18:13:22 710

原创 Github 50k star!吴恩达联合OpenAi共同编写<面向开发者的LLM入门教程> PDF推荐!

今天给大家推荐一本由吴恩达和OpenAI团队共同编写的关于大型语言模型(LLM)的权威教程

2024-07-08 18:12:27 882

原创 <大语言模型>LangChain 简明讲义:从 0 到 1 构建 LLM 应用程序 推荐!

哈喽啊大家,今天又来给大家推荐一本人工智能大模型方面的书籍

2024-07-08 18:10:49 207

原创 PyTorch学习系列教程:循环神经网络【RNN】

循环神经网络,英文Recurrent Neural Network,简写RNN。显然,这里的"循环"是最具特色的关键词。那么,如何理解"循环"二字呢?这首先要从RNN适用的任务——序列数据建模说起。RNN适用于序列数据建模,典型的序列数据可以是时间序列数据,例如股票价格、天气预报等;也可以是文本序列数据,比如文本情感分析,语言翻译等。这些数据都有一个共同的特点,那就是输入数据除了具有特征维度外,还有一个先后顺序的维度。

2024-07-08 18:05:45 930

原创 深度学习的绘画之道:图像生成与风格迁移的探索

在本文中,我们深入探讨了深度学习中图像生成与风格迁移的领域。首先,我们介绍了图像生成领域的两个主要模型:生成对抗网络(GAN)和变分自编码器(VAE)。通过简单的代码示例,我们展示了它们是如何从随机噪声中生成逼真图像的。接着,我们关注了风格迁移技术,特别是神经风格迁移。通过使用预训练的VGG19模型,我们展示了如何通过梯度下降优化生成的图像,使其同时拥有目标内容和风格,为图像注入艺术性。在讨论应用领域时,我们强调了这些技术在艺术、设计、虚拟现实和视频游戏中的广泛应用。

2024-07-08 17:43:05 920

原创 只需三步,手把手带你在本地部署运行大模型

在当前的技术环境下,大型语言模型(LLMs)已经成为人工智能领域的一个重要里程碑。这些模型能够在各种任务上展现出人类水平的性能,包括但不限于文本生成、语言理解和问题解答。随着开源项目的发展,个人开发者现在有机会在本地部署这些强大的模型,以探索和利用它们的潜力。本文将详细介绍如何使用Ollama,一个开源项目,在Mac上本地运行大型模型(Win同理)。通过遵循以下步骤,即使是配备了几年前硬件的电脑,也能够顺利完成部署和运行。

2024-07-05 17:43:39 1562

原创 只需三步,本地打造自己的AI个人专属知识库

虽然对于大多数人来讲,由于我们的电脑配置等原因,部署本地大模型并且达到很好的效果是很奢侈的一件事情。但是这并不妨碍我们对其中的流程和原理进行详细的了解。

2024-07-05 17:42:36 745

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除