- 博客(34)
- 资源 (1)
- 收藏
- 关注
原创 Transformer最细详解:从“你好吗“到“我很好“的全流程拆解
首先祭出这张经典的Transformer模型架构图(以下简称架构图),让我们一步步去理解。简单点来看,可以划分成四个部分组成,以及他们之间的连接组成。
2025-03-19 10:48:36
1198
原创 泰勒公式(泰勒展开式)通俗+本质详解
比较通俗地讲解一下泰勒公式是什么。泰勒公式,也称泰勒展开式。是用一个函数在某点的信息,描述其附近取值的公式。如果函数足够平滑,在已知函数在某一点的各阶导数值的情况下,泰勒公式可以利用这些导数值来做系数,构建一个多项式近似函数,求得在这一点的邻域中的值所以泰勒公式是做什么用的?简单来讲就是用一个多项式函数去逼近一个给定的函数(即尽量使多项式函数图像拟合给定的函数图像),注意,逼近的...
2019-03-03 12:54:53
501068
49
原创 2026全球开源大模型TOP10榜单+主流模型深度解析
2026年开源大模型呈现"中国领跑、MoE主导、场景专精"三大趋势。全球TOP10榜单中,中国模型占据8席,阿里Qwen3.5以397B参数MoE架构和多模态能力位居榜首。技术架构上,9/10模型采用MoE变体,实现大参数与高效率平衡;应用场景则从通用转向专精,如GLM-5擅长复杂工程、DeepSeek-V4专攻推理、KimiK2.5专注长文本处理。训练数据质量提升,微调技术门槛降低,使开源模型在多个领域超越闭源产品。未来发展方向将聚焦架构优化、垂直领域突破和易用性提升。
2026-03-09 19:30:00
3486
1
原创 2026最新 vLLM 模型管理全教程 + 与Ollama 详细对比
本文基于2026年3月最新技术现状,全面解析vLLM和Ollama的核心区别、使用场景及实操方法,重点补充vLLM模型下载、路径配置、本地查看等高频需求,适合开发者、学生及企业相关从业者参考。
2026-03-09 19:30:00
422
原创 主流AI编程工具深度对比:Claude Code、Cursor、Trea IDE及竞品全解析
AI编程工具对比指南:主流产品核心定位与适用场景解析 本文全面对比了当前主流AI编程工具,从产品形态、核心能力、价格和适用场景等维度进行拆解。
2026-03-05 20:00:00
1163
原创 微调技术实操教程:从LoRA到训练优化,新手也能上手
本文系统介绍了大模型微调的核心技术,重点解析参数高效微调方法。针对预训练模型在细分任务中的适配需求,对比了全量微调与参数高效微调(PEFT)的优劣,指出LoRA和QLoRA在资源消耗与效果平衡上的优势。详细阐述了LoRA的低秩矩阵原理、实操配置要点(包括rank值选择、目标层设置等),以及QLoRA的4-bit量化技术。提供了训练优化策略(分层学习率、梯度累积等)和防过拟合方案,并给出不同规模模型的微调选型建议。
2026-03-04 20:00:00
401
原创 从零开始成为大模型应用开发工程师(第3章) - LangChain核心功能全解析|从模型封装到生产部署
LangChain是一个模块化的大模型应用开发框架,将开发流程拆分为模型I/O、数据连接、对话历史、Chain/LCEL、Agent和LangServe六大核心功能。本文提供从入门到实战的完整指南,包含技术要点、实战代码和避坑技巧。通过统一接口封装模型调用、标准化数据处理流程、灵活编排推理任务,开发者可以快速构建知识库问答、智能客服等AI应用。教程涵盖PDF知识库构建、多轮对话系统、智能体Agent开发,并详细介绍如何通过LangServe部署生产级API服务。
2026-03-04 20:00:00
474
原创 从零开始成为大模型应用开发工程师(第2章) - 从API调用到环境搭建
本文介绍了零基础入门大模型应用开发的核心方法,重点讲解如何通过API调用快速搭建落地应用。主要内容包括:1)API调用基础,掌握HTTP请求、密钥管理和参数配置;2)RESTful API设计规范与使用技巧;3)模型响应处理与异常应对策略;4)错误日志管理与开发环境搭建。文章强调无需深入模型训练,只需掌握API调用、响应处理、容错机制和环境配置等关键模块,即可开发智能问答、文本生成等简单应用。最后提供了完整的学习大纲和进阶方向建议,帮助开发者快速上手大模型应用开发。
2026-03-04 19:30:00
454
原创 SFT(监督微调)核心理论基础:让大模型真正“懂行”的必经之路
摘要:SFT(监督微调)是大模型落地的关键环节,使预训练模型从"识字"到"懂行"。其核心目标是让模型更"听话",而非更聪明,通过解决过拟合、欠拟合和灾难性遗忘等问题提升指令遵循能力。相比零样本/少样本方法,小样本SFT(100-1000条数据)能显著提升任务精度。SFT与RLHF、RAG等技术形成互补:SFT解决指令理解,RLHF确保安全合规,RAG提供实时知识。
2026-03-02 19:00:00
1051
原创 LangChain 详细入门与实战教程:从零构建智能应用
LangChain 是一个开源框架,提供统一接口和工具链,让开发者能快速构建基于LLM的应用,专注于业务逻辑而非基础设施。例如 LangChain 可将LLM应用开发从100行代码简化到10行
2026-03-01 19:00:00
845
原创 从零开始成为大模型应用开发工程师(第1章) - Prompt提示词设计工程教程
本文系统探讨了大语言模型(LLM)提示词(Prompt)设计工程的核心要点。首先分析Prompt工程的技术价值,指出其能显著提升模型输出质量和任务完成度。然后从五大维度展开:设计原则强调明确性与任务分解;样本策略区分零样本和少样本提示;角色管理探讨专业身份设定;优化闭环介绍迭代测试方法;错误调试提供常见问题解决方案。文章还提出了Prompt评估指标和A/B测试实践,并展望了自动化优化、多模态适配等未来方向。最后强调在Prompt设计中需兼顾实践价值与伦理考量,为开发者提供了一套完整的提示词设计方法论。
2026-02-28 17:09:26
703
原创 保姆级落地|中文大模型本地部署全流程(Qwen+ChatGLM3+BGE+vLLM)
本文介绍了中文大模型的高效部署方案,重点推荐两套"中文最稳组合":通用配置(Qwen3-7B+BGE-M3)和轻量配置(ChatGLM3-6B+m3e-large)。详细讲解了从环境配置、模型获取到vLLM加速和嵌入模型使用的全流程,并提供了RAG实战案例。文章特别强调使用vLLM推理引擎可显著提升性能(5-10倍速度提升,显存降低30%+),同时给出常见问题解决方案。这套方案兼顾效果与部署难度,8G显存即可运行,适合本地服务、知识库和聊天机器人等应用场景,为中文大模型落地提供了实用指南
2026-02-28 08:00:00
1508
原创 Flink Ranger 鉴权及Flink-Ranger 插件详解
Ranger 在 Flink 中的作用是拦截 SQL 操作,根据预定义的策略判断用户是否有权限访问表、执行操作,从而实现数据安全管控。其核心是对表级别的 DDL(创建/删除表)、DML(插入/更新数据)、DQL(查询数据)进行权限校验。
2026-02-27 19:00:00
736
原创 私有化 AI 服务搭建:无外网环境下部署大模型+Embedding 模型
本文围绕「无外网、可落地、高可用」,部署 大模型(Llama 3 8B 4-bit 量化版,消费级显卡可跑) + Embedding 模型(m3e-base,轻量高效),包含离线依赖、离线模型、权限配置、接口封装全流程,适合运维、算法、后端开发者参考。
2026-02-26 14:58:12
729
原创 LangGraph 详细入门与实战教程
LangGraph是LangChain的图结构扩展框架,专为解决复杂工作流而设计。它通过有向无环图(DAG)模型实现条件分支、循环控制和状态管理,克服了传统LangChain线性流程的局限性。核心组件包括State(共享状态)、Node(执行单元)和Edge(路径控制),支持TypedDict明确定义状态结构。实战案例展示了基础链式流程、条件分支和循环工作流三种典型场景,并提供了完整代码示例。
2026-02-24 15:02:12
1291
原创 doris创建oracle catalog导致用户被锁
创建oracle catalog,oracle用户的密码写错了,返回报错信息,catalog创建前台显示应该是失败了。后来发现后台一直有连接在用错误的密码访问oracle,oracle设置了连续错误访问10次锁用户,最终导致用户被锁。原因还没查明,不确定是否是doris的bug。如果有原因说明或者解决方法,可以在评论中回复。doris版本2.0.5.
2024-08-18 15:23:18
398
2
原创 Doris全方位教程+应用实例
hll 列类型,不需要指定长度和默认值、 长度根据数据的聚合 程度系统内控制,并且 HLL 列只能通过配套的 hll_union_agg 、 Hll_cardinality、hll_hash 进行查询或使用。缺点:这两种对hbase支持的都不好,presto 不支持,但是对hdfs、hive兼容性很好,其实这也是顺理成章的,所以数据源的处理很重要,针对hbase的二级索引查询可以用phoenix,效果也不错。在 Doris 中,我们将用户通过建表语句创建出来的表称为 Base 表(Base Table)。
2024-07-24 10:41:45
2317
原创 spark报错:java.nio.channels.ClosedChannelException & Couldn't connect to leader 处理
上周修改了一个程序,上线后每过一段时间就会报错,并且直接卡住,不会自动结束。报错信息如下:19-10-27 19:01:07 ERROR org.apache.spark.executor.Executor:91 - Exception in task 6.0 in stage 7.0 (TID 80)java.nio.channels.ClosedChannelException.....
2019-10-29 16:25:18
1569
原创 记一次Spark读取多个kudu表的优化经历
程序原逻辑是从一张kudu表读数据进行后续统计,需求是修改为从另外两张不同的kudu表读数据,合并两张表的数据进行后续统计。于是修改的逻辑简化后是如下两个步骤:1、从两张kudu表读数据,并且分别注册成临时表import org.apache.kudu.spark.kudu._val kudu_table1 = spark.read.options( ...
2019-10-24 18:01:12
1921
原创 目标检测:从 RCNN 到 Faster-RCNN
深度学习图像处理主要分为图像分类、目标检测和语义分割,以下介绍一下广泛用于目标检测系统的RCNN系列神经网络算法。RCNNRCNN的检测流程:(Region proposal+CNN)生成候选区域——CNN提取特征——SVM进行分类1)生成候选框:使用Selective Search(选择性搜索算法,有效地去除冗余候选区域,使得计算量大大的减小)提取大约2000个候选区...
2019-10-16 19:33:10
728
原创 CNN - 卷积神经网络卷积计算详解
卷积计算层:CONV Layer人的大脑在识别图片的过程中,会由不同的皮质层处理不同方面的数据,比如:颜色、形状、光暗等,然后将不同皮质层的处理结果进行合并映射操作,得出最终的结果值,第一部分实质上是一个局部的观察结果,第二部分才是一个整体的结果合并。基于人脑的图片识别过程,我们可以认为图像的空间联系也是局部的像素联系比较紧密,而较远的像素相关性比较弱,所以每个神经元没有必要对全...
2019-07-30 15:24:21
3164
原创 CNN - 卷积神经网络输入层
数据输入层:Input Layer1、数据预处理进行预处理的主要原因是:输入数据单位不一样,可能会导致神经网络收敛速度慢,训练时间长 数据范围大的输入在模式分类中的作用可能偏大,而数据范围小的作用就有可能偏小 由于神经网络中存在的激活函数是有值域限制的,因此需要将网络训练的目标数据映射到激活函数的值域 S形激活函数在(0,1)区间以外区域很平缓,区分度太小。例如S形函数f(...
2019-07-30 15:16:06
19242
原创 CNN - 卷积神经网络总体介绍
卷积神经网络本文只是做一个总结性概述,具体各部分请点击相应链接卷积神经网络的层次1、数据输入层:Input Layer 输入层具体内容详见博主博客链接:https://blog.csdn.net/qq_38646027/article/details/977861022、卷积计算层:CONV Layer —— 卷积核计算 卷积核计算具体内容详见博主博...
2019-07-30 15:14:03
436
原创 机器学习算法05之 —— XGBoost
训练:根据OBJ(Gain,根据每个叶子结点损失函数的一阶二阶导数计算)损失函数,使用贪心算法,从很多种结构的树中选出最优的树作为当前迭代层的树,一层一层选出每一层的最优树,相加。主要工作有两个:1.确定每层树的最优结构 2.确定每层树的最优叶子节点的分值。预测:将样本 i 放到树 j 中,找到样本 i 在树 j 中被分到的叶子节点的预测值score(根据每个叶子结点损失函数的一...
2019-04-14 13:19:48
986
1
原创 机器学习笔记04_集成学习:随机森林、GBDT
集成学习:常见的集成学习思想有:• Bagging (并联) 代表:随机森林• Boosting(串联) 代表:Adaboost —— 根据正确率修改样本权重 GBDT—— 根据残差(梯度)修改样本标签值• StackingBagging 并联训练:-------------------------------------...
2019-03-22 19:24:00
573
1
原创 机器学习笔记02_softmax回归
Softmax回归softmax 回归是 logistic 回归的一般化,适用于K分类的问题,即多分类问题。针对于每个类别都有一个参数向量 θ (即每个类别都一套对应该类别的),第k类的参数为向量,组成的二维矩阵为*n;softmax 只适用于样本单分类。例如,输入一张图片,softmax 可以判断这张图片中属于哪一种类别的动物,不能判断这张图片中属于哪几种类别的动物。soft...
2019-03-18 17:46:32
1093
1
原创 机器学习笔记03_决策树
预测过程:当构建好一个判断模型后,新来一个用户(样本)后,可以根据构建好的模型直接进行判断,过程如上图,比如新用户特性为:无房产、单身、年收入55K,那么根据判断得出该用户无法进行债务偿还。这种决策对于借贷业务有比较好的指导意义。训练过程:先搞清楚几个概念。1. 数学期望:离散型随机变量的一切可能的取值xi与对应的概率P(xi)之积的和称为该离散型随机变量...
2019-03-17 11:03:43
488
原创 Spark系列(一) —— SparkCore详解
1. =》Spark 引入首先看一下MapReudce 计算和 Spark 计算的区别:MapReudce : 分布式计算框架缺点:执行速度慢,shuffle 机制:数据需要输出到磁盘,而且每次 shuffle 都需要进行排序操作框架的机制:只有 map 和 reduce 两个算子,对于比较复杂的任务,需要构建多个job来执行,当存在 job 依赖的时候,job 之间的数据...
2019-03-15 11:23:32
6234
原创 机器学习笔记01_ 线性回归&逻辑回归
什么是回归算法•回归算法是一种有监督算法,即需要给样本的特征打上标签。•回归算法是一种比较常用的机器学习算法,用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系;从机器学习的角度来讲,用于构建一个算法模型(函数)来做属性/特征(X)与标签(Y)之间的映射关系,在算法的学习过程中,试图寻找一个函数 使得参数之间的关系拟合性最好。•回归算法中算法(函数)的最终结果是一个连...
2019-03-14 16:14:08
764
原创 shell脚本日期遍历(按天&按小时)
使用shell脚本遍历日期1. 按天倒序遍历日期 ( 正序修改一下日期增减函数即可 )#!/bin/bash#倒序按天遍历日期#传入遍历的开始时间和结束时间startdate="$1"enddate="$2"echo 'startdate: '$startdateecho 'enddate: '$enddateecho "-----------------------...
2019-02-27 18:15:36
9303
2
原创 Hive任务运行常见报错及解决方式汇总
有的时候hive任务运行到一半,会报错并强制结束,下面对工作中经常遇到的报错及解决措施进行一个汇总,因为都是平时遇到了临时简单记录一下,所以没有当时的报错截图,但是主要报错内容是有的。以下报错内容均为从yarn任务监控页面(http://主机名:8088/cluster)中查到的运行日志中打印的具体报错,直接查看命令行或者其他运行日志,可能只能看到return code 1 或者ret...
2019-02-22 16:35:49
9061
2
原创 Hadoop伪分布式环境搭建
对于初学者而言,自己搭建一个大数据集群环境是一个必要步骤,也算是开始学习的第一步。即使对于已经工作的小伙伴们,有时不方便使用公司的测试/正式集群环境时,这时候自己搭建的集群也能派上用场 (重点是可以随便玩,玩坏了铲掉重新搭建即可)。现在分享一个自己搭建Hadoop伪分布式环境的步骤(伪分布式表示使用一台机器模拟n台机器组成的集群,简单方便代价小),按以下步骤我已经装了N遍,所以基本上不会...
2019-02-22 15:40:21
605
5
zookeeper-cdh5.3.6
2019-02-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅