2025年02月_AI小白熊

原创大模型到底能干什么？

所以很明显了，AI大模型在这其中起了的作用就是代替人做了调研实践和生产内容的角色，进一步节省了人的时间，提升了人的时间效率。

2025-02-07 11:39:37 665

ChatGPT 的巨大成功激发了越来越多的开发者兴趣，他们希望利用 OpenAI 提供的 API 或者私有化模型，来开发基于大型语言模型的应用程序。尽管大型语言模型的调用相对简单，但要创建完整的应用程序，仍然需要大量的定制开发工作，包括API集成、互动逻辑、数据存储等等。为了解决这个问题，从 2022 年开始，许多机构和个人相继推出了多个开源项目，旨在帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程。其中一个备受关注的项目就是 LangChain 框架。

2025-02-07 11:27:35 854

原创三步教你使用Ollama搭建自己的简单知识库

现在大模型工具越来越流行了，文心一言和豆包已经慢慢融入大家的工作生活中了，我们有问题都可以让大模型帮我们回答。不过这里有个问题，就是公开的AI大模型工具回答的都是通用型的问题，不够有针对性，比如我就想问一下，我自己上一篇论文中的某些内容，公开大模型工具往往是无法回答我们的，因为公开的大模型都是基于目前的数据训练得到的，显然它并不知道我本地新增的信息。而且，就算有接口可以提交我们的信息，由于安全和保密的需求，也不方便直接把我们的信息都上传。

2025-02-07 11:24:05 3034

原创从AI基础到Transformer技术：全面解析与学习路径

从AI的基础原理到Transformer的架构创新，再到DeepSeek等大模型的技术实践，人工智能正以惊人的速度重塑技术边界。对于学习者而言，系统化地掌握数学基础、深度学习框架与Transformer核心技术，将是通往AI前沿的必经之路。未来，随着算力提升与算法突破，Transformer及其衍生技术有望在更多领域释放潜力，持续推动通用人工智能（AGI）的探索进程。

2025-02-06 11:44:17 1506

原创 AI Agent ：AI 下一个浪潮--产业链深度解析（附全景图&细分龙头）

周鸿祎曾经说过：“如果2023年是大模型之年，2024年是垂直应用之年，那2025年就是智能体之年！而就在1月24号，OpenAI 正式推出其首款 AI Agent智能体 Operator，这个 Operator 可以像真人一样流畅地浏览网页，精准地点击、滚动、填写表单，甚至能独立订机票、电商购物、订餐等相当复杂的任务。不同于传统的虚拟助手，这款 AI 助手真正具备了“行动”的能力，而非仅仅给出建议或答复。那什么是AI Agent智能体？它是如何发展的，其工作核心是什么？

2025-02-06 11:41:40 1213

原创 RAG 系统完全指南：从基础到高级实践

RAG 技术的发展正在改变 AI 系统与知识交互的方式。通过将信息检索与生成模型相结合，我们创造了更智能、更可靠的 AI 系统。未来，随着技术的不断进步，RAG 系统将在更多领域发挥重要作用，帮助我们更好地利用和传递知识。展望未来，RAG 技术的发展将继续深化，可能与其他前沿技术如量子计算、脑机接口等产生有趣的交互。这个领域充满机遇，也需要更多研究者和实践者的参与和创新。

2025-02-06 11:38:28 2265

原创选择合适自己的检索增强生成（RAG）技术：综合指南

在人工智能领域不断发展的进程中，检索增强生成（RAG）技术已成为提升大型语言模型（LLM）性能的关键力量。它通过整合外部知识源，有效弥补了 LLM 自身知识的局限性，在众多应用场景中展现出巨大潜力。今天我们一起聊一下如何选择合适的 RAG 技术([RAG综述：探索检索增强生成技术的多样性与代码实践]

2025-02-06 11:36:39 1024

原创大模型训练到底需要什么样的数据（预训练）？

我们都知道大模型训练需要提供数据，企业常见的数据有网页、Word、PDF 等文档数据，那么能否直接把 Word、PDF 和网页直接给大模型训练呢？答案是否定的，因为这些文档格式不统一、内容分散且未经处理，难以直接用于训练，那么大模型训练需要的数据到底长什么样？

2025-02-06 11:28:26 694

原创 DeepSeek彻底火了，如何用，有多强，一文带你看懂！

在过去的这几天里，DeepSeek算是彻底爆火了，火出圈了，火到全民皆知的程度，就连平时不怎么关注AI的爸妈，连AI是什么东西都不知道的亲戚们居然都开始在年夜饭以及餐桌酒局上聊到了DeepSeek和他的创始人梁文峰。太魔幻了，没想到DeepSeek有一天能成为人们茶余饭后的聊天对象，我是万万没有想到的，足见DeepSeek的影响力有多大。其实更令我啼笑皆非的是，我爸妈以及舅舅姑丈亲戚们虽然知道这件事，但是都不知道DeepSeek具体是个什么玩意，更别说用过了。

2025-02-05 11:02:28 1392

原创万字长文详解大模型知识蒸馏指南

模型蒸馏即知识蒸馏（Knowledge Distillation），是一种模型压缩和加速技术。在深度学习中，大型深度神经网络虽性能优异，但因计算复杂度高、存储需求大，难以部署在资源受限设备上。模型蒸馏通过构建师生架构，让小的学生模型学习大的教师模型的知识，使学生模型在保持较小规模的同时，尽可能接近教师模型的性能。其核心组件包括知识（如教师模型的 logits、中间层特征等）、蒸馏算法（用于指导知识转移）和师生架构（决定知识传递方式）。

2025-02-05 10:52:01 3745

原创什么是AI Agents？一篇文章带你全面了解！

人工智能（AI）的快速发展正在深刻地改变着我们的生活和工作方式。其中，AI 代理（AI Agents）作为一种新兴的智能实体，正展现出巨大的潜力。本文将深入探讨 AI 代理的定义、特性、工作原理以及它们在各个领域的应用，并比较其与另一种自动化技术——机器人流程自动化（RPA）的区别，以期帮助读者全面了解 AI 代理的世界。AI 代理是一种建立在大型语言模型（LLM）之上的智能应用，它能够通过感知环境、进行规划和执行行动来实现特定目标。

2025-02-05 10:47:50 1056

原创开源 | Ollama + Deepseek + Dify 搭建本地知识库，助力企业内部信息高效管理

Dify是一个开源的 LLM（大语言模型）应用开发平台，旨在帮助企业快速构建和部署基于AI的应用程序。它通过直观的界面和强大的功能组合（如智-能 AI 工作流、RAG（检索增强生成）管道、模型管理等），帮助企业从原型开发快速过渡到产品上线。Dify 的核心目标是为企业提供一个灵活、可扩展的平台，使其能够轻松整合内部知识库，并通过 AI 技术提升信息管理效率。通过 Dify，企业可以快速搭建本地知识库，并借助先进的 AI 技术提升内部信息管理效率。

2025-02-05 10:40:47 2568

原创 DeepSeek不好用？那是你还不会这10个官方神级指令（建议收藏）

其实，使用 DeepSeek 就像和一个聪明的朋友对话它很智能，但需要你的引导；它很强大，但需要你的指点掌握这些技巧，你就能让 DeepSeek 变成你的得力助手，帮你：写出更生动的文章解决更复杂的问题获得更专业的建议激发更多创意灵感记住一点：AI 不是万能的，但会用的人才是。

2025-02-04 21:24:57 1520

原创把DeepSeek部署在你的电脑上（保姆级教程）

把大模型部署在自己的电脑上，有很多好处，但我要先泼一盆冷水。如果你之前没用过AI产品，或者平时用AI也不多，不推荐搞本地部署。有更简单的方法，可以让你用上AI。想用DeepSeek，可以直接在手机的软件商城，下载DeepSeek的手机APP。或者用浏览器，搜索DeepSeek的网页版。这样是最简单的，并且背后的AI都是一样的。本地部署适合以下情况：① 电脑配置较高，有独立显卡。② 有私密的数据需要处理，担心泄密。③需要和本地工作流结合，处理高频任务或复杂任务。

2025-02-04 21:21:11 14691

原创 11个超全的deepseek高效使用技巧！随便学 2 个，使用效率和体验直接起飞！超过99%的人不再是梦！

把DeepSeek当作一个聪明但没常识的新同事：在提问时要明确具体的目标、背景和要求，避免让其猜测，同时提供足够的信息以帮助其更好地理解问题。高效提问公式：“身份+任务+要求+例子”，例如“作为健身教练（身份），帮我制定减肥食谱（任务），要一周不重样（要求），像这样（例子）……”。核心理念：明确告诉DeepSeek你想要什么、参考什么资料、做成什么样子以及避开哪些雷区，这样可以大大提高其回答的准确性和实用性。核心理念。

2025-02-04 21:20:02 16049

原创一文学会！Deepseek-R1 + Ollama本地部署全攻略

家人们，还在为使用高级 AI 模型支付高昂订阅费而肉疼吗？今天就给大家带来一个好消息，免费、开源且隐私性强的 Deepseek-R1 模型了解一下！它的性能可与 OpenAI 每月 200 美元的 o1 模型媲美，重点是咱们能在本地部署，自己掌控，不仅省钱还安心。下面就跟着这篇文章，一步步把 Deepseek-R1 “请” 到自家电脑上！

2025-02-04 21:16:50 1634

原创大模型干货|Embedding模型是如何训练的？

Embedding模型能够从高维稀疏的数据中提取出低维密集的向量表示，从而捕捉输入数据之间的深层次语义关系。那么你是否好奇Embedding模型是怎么得到的呢？最近我花了点时间总结了下它的训练过程，通常涉及如下几个关键步骤：初始化嵌入空间：在训练开始之前，为每个符号（如单词、图像特征等）随机初始化一个初始嵌入向量，这些向量通常具有固定长度，并用于表示输入数据的特征。：将原始数据转换为嵌入向量表示。

2025-02-03 08:00:00 1350

原创从零基础到精通，AI小白的逆袭之路——大模型学习必备攻略

不得不说，是22年底chatGPT的发布让人工智能再次被得到广泛关注。chatGPT所有人都听过，最初我听到它只粗浅的知道它是一个对话工具，好像很厉害，对GPT的认知也以为只是一个简单的品牌代号，就跟AMG、BMW这种类似，没去想会有啥意思。但当后来认真了解了chatGPT每一个字母的详细释义之后，才发现原来人家取名并不是随便取的，在GPT命名的时候就已经告诉我们大模型的一些突出特点了。👉[CSDN大礼包全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]👈。

2025-02-03 07:45:00 924

原创写的真好，万字长文串烧LLM大模型技术原理

最近平时工作可以说是把脑子想“干”了，所以花大概三个周末完成了这篇接近2w字的文章。写完感觉有很多不足，但还是随便找个时间发了吧。其一是，本来是打算从Llama 3这种优质开源模型和报告出发，进行一些知识上的梳理，结果行文时几乎保留了论文原来的结构，导致前一个知识点到下一个知识点不够丝滑；其二是，由于水平不够和“综合性”考量的限制，所以对很多需要深入的知识没有详尽。后面几个周末也许还会持续迭代一下本文，主要是继续细化技术点。所以也恳请诸位指出错误或不足，尽情提出需要补充内容的部分。

2025-02-02 07:00:00 1062

原创第一批用大模型的程序员，已经升职加薪了...

就在前段时间，“人工智能”再次被提及，并成为国家战略的焦点。这一举措预示着在接下来的十年到十五年里，人工智能将获得巨大的发展红利。同时意味着，技术革命正在从逐步迈进，。毫无疑问，AI 应用型工程师一定是未来最紧俏的岗位。在过去的一年多时间里，我持续关注着大模型的发展趋势，并且尽可能地进行了尝试和实践。在学习的一过程中，也遭遇了不少问题，可能你也碰到过，比如：· 小团队如何解决 GPU 与存储空间等资源问题？· 如何在众多模型中选择合适自己领域的模型并进行优化？

2025-02-02 06:30:00 825

原创大模型 vs 搜广推？算法工程师们应该如何选择职业方向？

这里是「王喆的机器学习笔记」的第四十三篇文章，很久不更新了，难得今天有空，跟大家聊一聊同行们比较感兴趣的话题，算法工程师如何选择行业。选择这个话题的动机是最近很多同行在知乎咨询我：“感觉传统的算法模型方向，比如搜广推已经非常卷了，要不要转大模型赛道”。我个人其实也经历过互联网行业的多次潮起潮落，处在搜广推这个领域，也在时刻关注大模型的发展，所以对这个问题有一些感触，借这个机会跟大家探讨一下算法工程师选择职业方向的问题。

2025-02-01 09:30:00 1013

原创 RAG效果不好怎么办？试试这八大解决方案（含代码）

通过本文介绍的八种 LangChain 检索器，您可以根据具体的业务需求和场景，选择最合适的检索方式来构建高效的信息检索系统。无论是简单的关键词匹配，还是复杂的图谱关系检索，LangChain 都提供了强大而灵活的工具，帮助开发者更好地解决业务中常见的信息检索问题。希望通过这些实例和代码，您能够更好地理解并应用这些检索器，在实际项目中提高工作效率并优化业务流程。

2025-02-01 07:15:00 854

2401_85325726的博客