豆沙糕-CSDN博客

原创 Transformer最细详解：从“你好吗“到“我很好“的全流程拆解

首先祭出这张经典的Transformer模型架构图（以下简称架构图），让我们一步步去理解。简单点来看，可以划分成四个部分组成，以及他们之间的连接组成。

2025-03-19 10:48:36 1198

原创泰勒公式（泰勒展开式）通俗+本质详解

比较通俗地讲解一下泰勒公式是什么。泰勒公式，也称泰勒展开式。是用一个函数在某点的信息，描述其附近取值的公式。如果函数足够平滑，在已知函数在某一点的各阶导数值的情况下，泰勒公式可以利用这些导数值来做系数，构建一个多项式近似函数，求得在这一点的邻域中的值所以泰勒公式是做什么用的？简单来讲就是用一个多项式函数去逼近一个给定的函数(即尽量使多项式函数图像拟合给定的函数图像)，注意，逼近的...

2019-03-03 12:54:53 501068 49

原创 2026全球开源大模型TOP10榜单+主流模型深度解析

2026年开源大模型呈现"中国领跑、MoE主导、场景专精"三大趋势。全球TOP10榜单中，中国模型占据8席，阿里Qwen3.5以397B参数MoE架构和多模态能力位居榜首。技术架构上，9/10模型采用MoE变体，实现大参数与高效率平衡；应用场景则从通用转向专精，如GLM-5擅长复杂工程、DeepSeek-V4专攻推理、KimiK2.5专注长文本处理。训练数据质量提升，微调技术门槛降低，使开源模型在多个领域超越闭源产品。未来发展方向将聚焦架构优化、垂直领域突破和易用性提升。

2026-03-09 19:30:00 3486 1

原创 2026最新 vLLM 模型管理全教程 + 与Ollama 详细对比

本文基于2026年3月最新技术现状，全面解析vLLM和Ollama的核心区别、使用场景及实操方法，重点补充vLLM模型下载、路径配置、本地查看等高频需求，适合开发者、学生及企业相关从业者参考。

2026-03-09 19:30:00 422

原创主流AI编程工具深度对比：Claude Code、Cursor、Trea IDE及竞品全解析

AI编程工具对比指南：主流产品核心定位与适用场景解析本文全面对比了当前主流AI编程工具，从产品形态、核心能力、价格和适用场景等维度进行拆解。

2026-03-05 20:00:00 1163

原创微调技术实操教程：从LoRA到训练优化，新手也能上手

本文系统介绍了大模型微调的核心技术，重点解析参数高效微调方法。针对预训练模型在细分任务中的适配需求，对比了全量微调与参数高效微调（PEFT）的优劣，指出LoRA和QLoRA在资源消耗与效果平衡上的优势。详细阐述了LoRA的低秩矩阵原理、实操配置要点（包括rank值选择、目标层设置等），以及QLoRA的4-bit量化技术。提供了训练优化策略（分层学习率、梯度累积等）和防过拟合方案，并给出不同规模模型的微调选型建议。

2026-03-04 20:00:00 401

原创从零开始成为大模型应用开发工程师(第3章) - LangChain核心功能全解析｜从模型封装到生产部署

LangChain是一个模块化的大模型应用开发框架，将开发流程拆分为模型I/O、数据连接、对话历史、Chain/LCEL、Agent和LangServe六大核心功能。本文提供从入门到实战的完整指南，包含技术要点、实战代码和避坑技巧。通过统一接口封装模型调用、标准化数据处理流程、灵活编排推理任务，开发者可以快速构建知识库问答、智能客服等AI应用。教程涵盖PDF知识库构建、多轮对话系统、智能体Agent开发，并详细介绍如何通过LangServe部署生产级API服务。

2026-03-04 20:00:00 474

原创从零开始成为大模型应用开发工程师(第2章) - 从API调用到环境搭建

本文介绍了零基础入门大模型应用开发的核心方法，重点讲解如何通过API调用快速搭建落地应用。主要内容包括：1）API调用基础，掌握HTTP请求、密钥管理和参数配置；2）RESTful API设计规范与使用技巧；3）模型响应处理与异常应对策略；4）错误日志管理与开发环境搭建。文章强调无需深入模型训练，只需掌握API调用、响应处理、容错机制和环境配置等关键模块，即可开发智能问答、文本生成等简单应用。最后提供了完整的学习大纲和进阶方向建议，帮助开发者快速上手大模型应用开发。

2026-03-04 19:30:00 454

原创 SFT(监督微调)核心理论基础：让大模型真正“懂行”的必经之路

摘要：SFT（监督微调）是大模型落地的关键环节，使预训练模型从"识字"到"懂行"。其核心目标是让模型更"听话"，而非更聪明，通过解决过拟合、欠拟合和灾难性遗忘等问题提升指令遵循能力。相比零样本/少样本方法，小样本SFT（100-1000条数据）能显著提升任务精度。SFT与RLHF、RAG等技术形成互补：SFT解决指令理解，RLHF确保安全合规，RAG提供实时知识。

2026-03-02 19:00:00 1051

原创 LangChain 详细入门与实战教程：从零构建智能应用

LangChain 是一个开源框架，提供统一接口和工具链，让开发者能快速构建基于LLM的应用，专注于业务逻辑而非基础设施。例如 LangChain 可将LLM应用开发从100行代码简化到10行

2026-03-01 19:00:00 845

原创从零开始成为大模型应用开发工程师(第1章) - Prompt提示词设计工程教程

本文系统探讨了大语言模型(LLM)提示词(Prompt)设计工程的核心要点。首先分析Prompt工程的技术价值，指出其能显著提升模型输出质量和任务完成度。然后从五大维度展开：设计原则强调明确性与任务分解；样本策略区分零样本和少样本提示；角色管理探讨专业身份设定；优化闭环介绍迭代测试方法；错误调试提供常见问题解决方案。文章还提出了Prompt评估指标和A/B测试实践，并展望了自动化优化、多模态适配等未来方向。最后强调在Prompt设计中需兼顾实践价值与伦理考量，为开发者提供了一套完整的提示词设计方法论。

2026-02-28 17:09:26 703

原创保姆级落地｜中文大模型本地部署全流程（Qwen+ChatGLM3+BGE+vLLM）

本文介绍了中文大模型的高效部署方案，重点推荐两套"中文最稳组合"：通用配置(Qwen3-7B+BGE-M3)和轻量配置(ChatGLM3-6B+m3e-large)。详细讲解了从环境配置、模型获取到vLLM加速和嵌入模型使用的全流程，并提供了RAG实战案例。文章特别强调使用vLLM推理引擎可显著提升性能(5-10倍速度提升，显存降低30%+)，同时给出常见问题解决方案。这套方案兼顾效果与部署难度，8G显存即可运行，适合本地服务、知识库和聊天机器人等应用场景，为中文大模型落地提供了实用指南

2026-02-28 08:00:00 1508

原创 Flink Ranger 鉴权及Flink-Ranger 插件详解

Ranger 在 Flink 中的作用是‌拦截 SQL 操作‌，根据预定义的策略判断用户是否有权限访问表、执行操作，从而实现数据安全管控。其核心是对‌表级别‌的 DDL（创建/删除表）、DML（插入/更新数据）、DQL（查询数据）进行权限校验。

2026-02-27 19:00:00 736

原创私有化 AI 服务搭建：无外网环境下部署大模型+Embedding 模型

本文围绕「无外网、可落地、高可用」，部署大模型（Llama 3 8B 4-bit 量化版，消费级显卡可跑） + Embedding 模型（m3e-base，轻量高效），包含离线依赖、离线模型、权限配置、接口封装全流程，适合运维、算法、后端开发者参考。

2026-02-26 14:58:12 729

原创 LangGraph 详细入门与实战教程

LangGraph是LangChain的图结构扩展框架，专为解决复杂工作流而设计。它通过有向无环图（DAG）模型实现条件分支、循环控制和状态管理，克服了传统LangChain线性流程的局限性。核心组件包括State（共享状态）、Node（执行单元）和Edge（路径控制），支持TypedDict明确定义状态结构。实战案例展示了基础链式流程、条件分支和循环工作流三种典型场景，并提供了完整代码示例。

2026-02-24 15:02:12 1291

原创 Flink万字全方位教程[面试必备]+应用示例

面试必备：Flink万字全方位介绍[面试必备]+应用实例

2025-01-15 14:09:29 1197

原创 doris创建oracle catalog导致用户被锁

创建oracle catalog，oracle用户的密码写错了，返回报错信息，catalog创建前台显示应该是失败了。后来发现后台一直有连接在用错误的密码访问oracle，oracle设置了连续错误访问10次锁用户，最终导致用户被锁。原因还没查明，不确定是否是doris的bug。如果有原因说明或者解决方法，可以在评论中回复。doris版本2.0.5.

2024-08-18 15:23:18 398 2

原创 Doris全方位教程+应用实例

hll 列类型，不需要指定长度和默认值、长度根据数据的聚合程度系统内控制，并且 HLL 列只能通过配套的 hll_union_agg 、 Hll_cardinality、hll_hash 进行查询或使用。缺点：这两种对hbase支持的都不好，presto 不支持，但是对hdfs、hive兼容性很好，其实这也是顺理成章的，所以数据源的处理很重要，针对hbase的二级索引查询可以用phoenix，效果也不错。在 Doris 中，我们将用户通过建表语句创建出来的表称为 Base 表（Base Table）。

2024-07-24 10:41:45 2317

原创 hudi数据湖万字全方位教程+应用示例

hudi全方位教程

2024-07-11 10:51:35 1869

原创 spark报错：java.nio.channels.ClosedChannelException & Couldn't connect to leader 处理

上周修改了一个程序，上线后每过一段时间就会报错，并且直接卡住，不会自动结束。报错信息如下：19-10-27 19:01:07 ERROR org.apache.spark.executor.Executor:91 - Exception in task 6.0 in stage 7.0 (TID 80)java.nio.channels.ClosedChannelException.....

2019-10-29 16:25:18 1569

原创记一次Spark读取多个kudu表的优化经历

程序原逻辑是从一张kudu表读数据进行后续统计，需求是修改为从另外两张不同的kudu表读数据，合并两张表的数据进行后续统计。于是修改的逻辑简化后是如下两个步骤：1、从两张kudu表读数据，并且分别注册成临时表import org.apache.kudu.spark.kudu._val kudu_table1 = spark.read.options( ...

2019-10-24 18:01:12 1921

原创目标检测：从 RCNN 到 Faster-RCNN

深度学习图像处理主要分为图像分类、目标检测和语义分割，以下介绍一下广泛用于目标检测系统的RCNN系列神经网络算法。RCNNRCNN的检测流程：(Region proposal+CNN)生成候选区域——CNN提取特征——SVM进行分类1）生成候选框：使用Selective Search（选择性搜索算法，有效地去除冗余候选区域，使得计算量大大的减小）提取大约2000个候选区...

2019-10-16 19:33:10 728

原创 CNN - 卷积神经网络卷积计算详解

卷积计算层：CONV Layer人的大脑在识别图片的过程中，会由不同的皮质层处理不同方面的数据，比如：颜色、形状、光暗等，然后将不同皮质层的处理结果进行合并映射操作，得出最终的结果值，第一部分实质上是一个局部的观察结果，第二部分才是一个整体的结果合并。基于人脑的图片识别过程，我们可以认为图像的空间联系也是局部的像素联系比较紧密，而较远的像素相关性比较弱，所以每个神经元没有必要对全...

2019-07-30 15:24:21 3164

原创 CNN - 卷积神经网络输入层

数据输入层：Input Layer1、数据预处理进行预处理的主要原因是：输入数据单位不一样，可能会导致神经网络收敛速度慢，训练时间长数据范围大的输入在模式分类中的作用可能偏大，而数据范围小的作用就有可能偏小由于神经网络中存在的激活函数是有值域限制的，因此需要将网络训练的目标数据映射到激活函数的值域 S形激活函数在(0,1)区间以外区域很平缓，区分度太小。例如S形函数f(...

2019-07-30 15:16:06 19242

原创 CNN - 卷积神经网络总体介绍

卷积神经网络本文只是做一个总结性概述，具体各部分请点击相应链接卷积神经网络的层次1、数据输入层：Input Layer 输入层具体内容详见博主博客链接：https://blog.csdn.net/qq_38646027/article/details/977861022、卷积计算层：CONV Layer —— 卷积核计算卷积核计算具体内容详见博主博...

2019-07-30 15:14:03 436

原创机器学习算法05之 —— XGBoost

训练：根据OBJ(Gain,根据每个叶子结点损失函数的一阶二阶导数计算)损失函数，使用贪心算法，从很多种结构的树中选出最优的树作为当前迭代层的树，一层一层选出每一层的最优树，相加。主要工作有两个：1.确定每层树的最优结构 2.确定每层树的最优叶子节点的分值。预测：将样本 i 放到树 j 中，找到样本 i 在树 j 中被分到的叶子节点的预测值score(根据每个叶子结点损失函数的一...

2019-04-14 13:19:48 986 1

原创机器学习笔记04_集成学习：随机森林、GBDT

集成学习：常见的集成学习思想有：• Bagging (并联) 代表：随机森林• Boosting（串联）代表：Adaboost —— 根据正确率修改样本权重 GBDT—— 根据残差(梯度)修改样本标签值• StackingBagging 并联训练：-------------------------------------...

2019-03-22 19:24:00 573 1

原创机器学习笔记02_softmax回归

Softmax回归softmax 回归是 logistic 回归的一般化，适用于K分类的问题，即多分类问题。针对于每个类别都有一个参数向量 θ (即每个类别都一套对应该类别的)，第k类的参数为向量，组成的二维矩阵为*n；softmax 只适用于样本单分类。例如，输入一张图片，softmax 可以判断这张图片中属于哪一种类别的动物，不能判断这张图片中属于哪几种类别的动物。soft...

2019-03-18 17:46:32 1093 1

原创机器学习笔记03_决策树

预测过程：当构建好一个判断模型后，新来一个用户(样本)后，可以根据构建好的模型直接进行判断，过程如上图，比如新用户特性为：无房产、单身、年收入55K，那么根据判断得出该用户无法进行债务偿还。这种决策对于借贷业务有比较好的指导意义。训练过程：先搞清楚几个概念。1. 数学期望：离散型随机变量的一切可能的取值xi与对应的概率P(xi)之积的和称为该离散型随机变量...

2019-03-17 11:03:43 488

原创 Spark系列(一) —— SparkCore详解

1. =》Spark 引入首先看一下MapReudce 计算和 Spark 计算的区别：MapReudce : 分布式计算框架缺点：执行速度慢，shuffle 机制：数据需要输出到磁盘，而且每次 shuffle 都需要进行排序操作框架的机制：只有 map 和 reduce 两个算子，对于比较复杂的任务，需要构建多个job来执行，当存在 job 依赖的时候，job 之间的数据...

2019-03-15 11:23:32 6234

原创机器学习笔记01_ 线性回归&逻辑回归

什么是回归算法•回归算法是一种有监督算法，即需要给样本的特征打上标签。•回归算法是一种比较常用的机器学习算法，用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系；从机器学习的角度来讲，用于构建一个算法模型(函数)来做属性/特征(X)与标签(Y)之间的映射关系，在算法的学习过程中，试图寻找一个函数使得参数之间的关系拟合性最好。•回归算法中算法(函数)的最终结果是一个连...

2019-03-14 16:14:08 764

原创 shell脚本日期遍历（按天&按小时）

使用shell脚本遍历日期1. 按天倒序遍历日期 ( 正序修改一下日期增减函数即可 )#!/bin/bash#倒序按天遍历日期#传入遍历的开始时间和结束时间startdate="$1"enddate="$2"echo 'startdate: '$startdateecho 'enddate: '$enddateecho "-----------------------...

2019-02-27 18:15:36 9303 2

原创 Hive任务运行常见报错及解决方式汇总

有的时候hive任务运行到一半，会报错并强制结束，下面对工作中经常遇到的报错及解决措施进行一个汇总，因为都是平时遇到了临时简单记录一下，所以没有当时的报错截图，但是主要报错内容是有的。以下报错内容均为从yarn任务监控页面(http://主机名:8088/cluster)中查到的运行日志中打印的具体报错，直接查看命令行或者其他运行日志，可能只能看到return code 1 或者ret...

2019-02-22 16:35:49 9061 2

原创 Hadoop伪分布式环境搭建

对于初学者而言，自己搭建一个大数据集群环境是一个必要步骤，也算是开始学习的第一步。即使对于已经工作的小伙伴们，有时不方便使用公司的测试/正式集群环境时，这时候自己搭建的集群也能派上用场 (重点是可以随便玩，玩坏了铲掉重新搭建即可)。现在分享一个自己搭建Hadoop伪分布式环境的步骤（伪分布式表示使用一台机器模拟n台机器组成的集群，简单方便代价小），按以下步骤我已经装了N遍，所以基本上不会...

2019-02-22 15:40:21 605 5

专注AI与大数据技术分享与教程