- 博客(425)
- 资源 (5)
- 收藏
- 关注
原创 熵、似然与交叉熵
惩罚“自信的错误预测”:预测概率0.01时真实发生 → 巨大损失奖励“谨慎的正确预测”:预测概率0.8时真实发生 → 适度奖励。
2025-08-10 22:48:34
235
原创 概率论入门教程
掌握随机现象背后的数学规律,解锁数据分析与决策的核心工具概率论是研究“不确定性”的数学分支,它告诉我们,虽然单个随机事件的结果无法预测,但大量重复时,会呈现出稳定的、可量化的模式。从天气预报到金融风险评估,从医疗诊断到搜索引擎算法,概率论无处不在。当我们使用导航系统避开拥堵、接收个性化推荐或评估投资风险时,背后都有概率论的力量在支撑。本文将系统介绍概率论的核心概念,通过直观的韦恩图解释关键公式,并展示Python中的实际应用。
2025-08-06 00:56:32
656
原创 微积分入门教程
导数描述了函数在某一点的瞬时变化率。从几何角度看,它代表了函数曲线在该点的切线斜率。对于函数fxf(x)fx,在点xxxf′xlimh→0fxh−fxhf′xh→0limhfxh−fx这个定义捕捉了当hhh趋近于0时,函数变化的极限行为。# 定义函数 f(x) = x^2def f(x):# 数值计算导数# 在x=1处计算导数# 可视化'r--', label=f'切线: 斜率 =
2025-08-06 00:12:45
657
原创 线性代数入门教程
转置性质ATTAATTAABTATBTABTATBT矩阵运算规则矩阵乘法不满足交换律AB≠BAAB ≠ BAABBAABCABCABCABCABCABACABCABAC特殊矩阵AATA = A^TAATAATIAA^T = IAATI范数应用L2范数用于计算欧氏距离L1范数对异常值更鲁棒Frobenius范数衡量矩阵大小。
2025-08-05 23:44:49
472
原创 从“习”字出发:解锁学习之道的神奇钥匙
当“学习-预习-练习-复习-自习”形成闭环,便构筑了一个自我强化的成长系统“习”字词语所编织的,远非琐碎的学习技巧,而是一套精妙的人脑升级系统。它强调行动与反思的结合、输入与输出的循环、外驱向内驱的转化。当“习”成为生命的节奏,学习便不再是被动的任务,而成为一场主动的自我进化。“习以为常”的境界并非遥不可及。从今日起,珍视每一个“习”字背后的力量,让“学习”启智、“预习”探路、“练习”铸技、“复习”固本、“自习”修心。成长的大门,始终向善“习”者敞开。
2025-08-04 00:34:34
161
原创 快速失败:拥抱跌倒,加速奔跑的艺术
主动拥抱可控范围内的小失败,消除对失败的病态恐惧,视其为成长必经之路。失败是最直接、最诚实的反馈,瞬间暴露问题核心,避免在歧途上浪费资源。快速失败意味着快速学习、快速调整,极大缩短验证和优化周期。在投入巨大成本前,通过低成本的小失败识别核心风险,避免灾难性溃败。它绝非鼓励鲁莽,而是倡导一种结构化、低成本、以反馈为驱动的实验精神。在代码的单元测试里、在游戏的练习场上、在产品的原型迭代中、在技术学习的键盘敲击下,“快速失败”如同一面透镜,将模糊的恐惧聚焦为清晰的路径。
2025-08-04 00:12:27
908
原创 提速10倍!手把手教你配置pip国内镜像源
配置国内镜像源是Python开发者必备技能,只需1分钟操作,就能永久告别下载卡顿。小贴士:定期清理缓存可释放磁盘空间版权声明:欢迎转载分享!转载请注明出处并保留原文链接。
2025-08-03 23:12:45
429
原创 第15章 自然语言处理:NLP 落地流水线
维度说明任务类型单文本二分类(pos / neg)典型业务电商评论、舆情监控、金融情绪评价指标Accuracy、F1、AUC、业务 ROI三分类数据集:SNLI 550 k,平均每句 14 tokens指标:Accuracy、Macro-F1(类别不平衡时更关键)
2025-08-03 00:25:12
774
原创 第11章 优化算法:从“蹒跚下山”到“智能滑翔”
优化器核心思想关键超参数典型适用场景一句话特点梯度下降 (GD)全批量计算精确梯度学习率 η小数据集、可凸问题方向准、步子稳,但慢随机梯度下降 (SGD)单样本无偏梯度η大数据、在线学习快但噪声大小批量 SGD折中:批量梯度深度学习默认基线并行友好、调参少带动量 SGD指数滑动平均梯度峡谷地形、深度网络冲过局部坑,抗震荡AdaGrad坐标级梯度平方累加 → 自适应缩小学习率η + ε稀疏特征(NLP、推荐)罕见词高学习率,后期易停滞RMSProp。
2025-08-02 23:15:18
727
原创 第10章 注意力机制:从“看见”到“注视”
高斯核 = softmax(−(x−x_i)²/2)训练后 w≈2.3,曲线更贴合数据但局部抖动增大。预测 = 所有训练输出的均值(无视输入位置)→。:纯注意力、无卷积、无循环的编码器-解码器架构。把“注意力”写成公式。:解码器每一步动态生成。c_t,而非固定向量。:让模型在同一时间关注。
2025-08-02 00:11:02
426
原创 第5章 深度学习计算:从“会用框架”到“驾驭框架”
最简模板必须实现__init__定义子层;forward定义计算图。自动反向:Autograd 负责梯度,无需手写。当框架自带的层不够用时,自己造轮子。
2025-08-01 23:29:56
232
原创 第3章 线性神经网络:机器学习的基础架构
把 Python 的 for-loop 换成张量运算,提速。10 类 28×28 时装图,6 万训练 / 1 万测试。当目标不再是“多少”,而是“哪一个”。:先学会“手搓”,再享受框架的便利。梯度优雅:∂l/∂o = ŷ − y。用 PyTorch 高级 API,:当解析解不存在或太慢时。,则最小化 MSE ≈。
2025-08-01 00:16:15
702
原创 第2章 预备知识:动手之前,先把工具箱装满
本节用 PyTorch 带你完成从 0 到 1 的「张量驾驶执照」考试。把 3×1 向量加到 1×2 向量,自动“复制”成 3×2 再相加——真实项目 80 % 时间在洗数据,20 % 时间在调模型。手动求:f′(x)=6x−4;x=1 时 f′(1)=2。把「高维空间」画成张量,就能用代码做几何。把 x 换成向量,求每个分量的瞬时变化率。| 真阳性率 | 0.99 || 假阳性率 | 0.01 |让你“写完算式就能求导”。不会查文档,等于不会写代码。的方向,负梯度即下降最快。
2025-08-01 00:15:10
399
原创 技术人的两难困境:概念喧嚣与螺丝钉现实
在技术行业,不少开发者面临一个相似的困境:一边是热衷于追赶技术潮流却缺乏实质落地的中小公司,另一边是拥有雄厚技术实力却将个体固化为螺丝钉的大型企业。这种二元对立的环境下,想要真正掌握如AI、大数据等前沿技术的开发者,常感前路迷茫。
2025-07-31 00:49:13
593
原创 从消耗战到可持续成长的艺术
许多资深职场人经历过相似的觉醒时刻:当过度投入工作却未见预期回报时,他们开始重新审视职业价值的本质。。这种认知转变,标志着职场人从执行者向战略经营者的进化。
2025-07-31 00:43:22
347
原创 技术追赶:从滞后到精进的系统性路径
在技术快速迭代的当下,许多从业者面临相似的困境:因工作负荷、认知偏差或场景缺失,未能及时掌握大数据、AI等新兴技术。当意识到外部依赖不可行时,自主突破成为必然选择。本文将提供可操作的转型方案。
2025-07-31 00:35:33
618
原创 浪潮与未来:如何理性看待技术浪潮
在技术快速迭代的时代,一种普遍存在的遗憾是:当新概念(如几年前的大数据、近年的AI)初露锋芒时,因怀疑其“泡沫”属性而选择观望,待尘埃落定、价值显现时,才惊觉错过了早期投入学习的黄金期。这种“后见之明”带来的懊悔,源于对新事物本能的审慎,也反映了在信息洪流中把握趋势的挑战。
2025-07-31 00:21:23
588
原创 AI时代的线性代数:从矩阵乘法到Transformer
掌握三个关键点,解锁AI引擎数据变矩阵:把问题转化为数字表格模型即乘法:神经网络=矩阵乘法链学习调参数:梯度下降更新权重矩阵“不要试图手算反向传播 —— 那是PyTorch的工作”PyTorch张量操作教程《Python数据科学手册》第4章(免费在线阅读)Hugging Face课程《Transformers实战》
2025-07-31 00:11:32
916
原创 大模型落地图鉴:从田间地头到钢铁洪流,AI如何重塑千行百业?
这不是科幻电影,而是2025年AI大模型在农业、工业、政务、金融等领域爆发的真实景象。当公众还在讨论聊天机器人生成图片时,一场静默的生产力革命早已深入田间地头、工厂车间、政府窗口和金融后台。过去一年,大模型技术不再是实验室的“炫技”,正以前所未有的速度成为驱动经济发展的“产业新基座”。它如何改变我们熟悉的世界?让我们一探究竟。
2025-07-30 23:54:27
585
原创 SELECT ... FOR UPDATE:核心场景与替代方案
方案核心思想适用场景优点缺点优先度原子更新单语句完成操作逻辑可嵌入单条 UPDATE (计算、条件更新)性能最佳,最简洁复杂逻辑难以实现⭐⭐⭐⭐⭐唯一约束数据库原生保证防止重复插入简单可靠,高性能仅适用于唯一性⭐⭐⭐乐观锁无锁,冲突后重试冲突率低,复杂逻辑(无法原子 UPDATE)无锁,高并发潜力需重试逻辑,冲突率高时差,需版本字段⭐⭐⭐⭐提前锁定冲突率高,强一致复杂操作,任务队列强一致性保证阻塞,死锁风险,性能开销⭐⭐⭐。
2025-07-30 23:30:07
661
原创 栈:解锁嵌套结构处理的利器
栈是处理嵌套结构的利器,其LIFO特性与嵌套问题完美匹配。通过维护当前上下文和回溯机制,栈能优雅解决从简单标签检查到复杂表达式求值等各种问题。掌握栈处理嵌套结构的模式,你将拥有解决一大类编程问题的通用方法。无论是日常开发还是算法挑战,这种技巧都将成为你工具箱中的重要武器。“栈是计算机科学中最强大的思想之一,它用简单的规则解决了复杂的问题。
2025-07-30 00:49:55
322
原创 当我们惊讶于大模型时,我们到底在惊讶什么?
Transformer和GPT带来的“意外感”,恰恰证明了它们是人类智慧的一次非凡突破,是少数顶尖团队在特定历史节点创造的奇迹。连比尔·盖茨都曾坦言,他完全低估了AI(特别是GPT)的发展速度,这让他“感到震惊”。由衷敬佩: 承认并敬佩那些推动认知边界的科学家和工程师。深入理解理解它们,是驾驭它们的第一步。思考应用: AI的大门刚刚开启。Transformer和GPT是强大的工具和平台。如何将它们应用到你的专业领域、解决实际问题、或在其基础上进行创新,是比“懊悔过去”更有价值千百倍的方向。
2025-07-30 00:45:42
644
原创 当AI能回答一切,真正的力量在于“提问”
在AI可以回答近乎一切问题的时代,“学会提问”不再是一种初级技能,而是一种高阶的综合素养。它融合了知识的深度、学习的韧性、批判的锐度、逻辑的精度、创造的灵感和表达的清晰度。它是人类智慧在智能时代最闪耀、最不可替代的部分之一。下一次当你准备向AI提问时,不妨先问问自己:我是否真正理解了我的问题所扎根的土壤?我的知识骨架是否足够支撑它?我是否给了灵感闪现的空间?我又该如何用分析的刻刀将它雕琢得更清晰?因为,答案的质量,永远始于问题的深度。现在,你最想提出的那个深刻问题是什么?
2025-07-30 00:30:54
250
原创 Transformer数据流详解:从输入到输出的矩阵之旅
处理阶段输入维度输出维度核心操作关键参数词嵌入14嵌入矩阵查表词嵌入矩阵位置编码44向量加法位置编码表Q/K/V生成43矩阵乘法注意力输出34线性投影W_O残差+层归一44向量加法+标准化归一化参数FFNN第一层48线性变换+ReLUW1, b1FFNN第二层84线性变换W2, b2分类头43线性映射+softmaxW_cls。
2025-07-30 00:19:49
286
原创 Transformer的灵魂解密:QKV注意力机制详解
动态投影:QKV不是静态数据,而是输入向量的情境化表达角色分离:三位一体架构实现精准信息检索与聚合上下文建模:每个输出向量融合全句相关信息扩展基石:多头机制赋予模型多视角理解能力正是这套优雅的设计,让Transformer在机器翻译、文本生成等任务中展现出接近人类的情境理解能力。理解QKV,就握住了打开现代AI语言魔盒的钥匙。当你在ChatGPT中输入文字时,每个词都在生成自己的QKV向量,通过层层Transformer块,最终形成对你的回答。这精妙的数学舞蹈,正在悄然改变人机交互的未来。
2025-07-30 00:03:00
658
原创 200行代码实现Transformer核心架构
通过约200行核心代码,我们实现了一个完整可运行的Transformer架构。虽然工业级实现需要更多优化(如HuggingFace的Transformers库约5000行),但核心思想已在此呈现。Transformer的简洁设计揭示了AI领域的深刻智慧:复杂功能可通过精心设计的简单组件组合实现。
2025-07-29 23:51:51
168
原创 从直线到神经网络:揭秘矩阵向量乘法
当我们凝视神经网络中的Y=WX+B,看到的不仅是数学形式的延续,更是思想的跃迁:维度突破从二维直线 → 高维超平面 → 非线性流形功能进化从描述静态关系 → 构建动态学习系统哲学启示最复杂的智能往往建立在最简单的线性组合之上爱因斯坦曾言:"这个世界最不可理解之处,就是它竟然可以被理解。"当神经网络用WX+B拟合宇宙规律时,我们看到的正是数学描述世界的永恒魅力——从一条简单的直线开始,延伸到智能的无限可能。
2025-07-29 23:09:50
735
原创 大模型技术解析:从词嵌入到文本生成
性能提升 ∝ ( \text{数据量}^{0.34} \times \text{参数量}^{0.28} \times \text{计算量}^{0.28} )同一词汇在不同语境中获得差异化向量表示。例如“银行”在金融与地理语境中的向量空间距离显著增大。超大规模参数网络编码了训练数据中的潜在关联模式(如因果链、类比关系)。,而突破现有局限需在知识注入机制、推理架构等方向持续探索。最终隐藏状态 → 词汇表概率分布。
2025-07-29 01:14:23
553
原创 大模型双引擎:自注意力与前馈网络
数据依据:LLaMA-2 70B模型中MLP参数占比68%自注意力层 -> 跨token关联。Transformer层。MLP层 -> 特征精炼。问题:静态知识难实时更新。
2025-07-29 01:02:12
267
原创 大模型:不造引擎,但要懂原理
不要用调用API的勤奋,掩盖理解原理的懒惰”短期收益:更少Prompt试错、更高微调成功率、面试脱颖而出长期壁垒:在AI重构软件的时代,掌握“语言”的开发者不会被淘汰(可视化入门)(实战微调)(工业级优化示例)行动:今天用Colab拆解一个GPT-2模型,观察注意力矩阵如何工作——这是你迈向AI深度开发的第一步!
2025-07-27 15:24:51
924
原创 PyTorch新手入门:从零开始掌握深度学习框架
PyTorch以其简洁的设计和强大的功能,已成为深度学习领域的主流框架。通过本指南,你已经掌握了PyTorch的核心概念和基本工作流程。深度学习之旅充满挑战,但也充满乐趣。不要害怕犯错,每个错误都是进步的机会。现在就开始你的PyTorch之旅吧,期待看到你创造的精彩模型!“深度学习不是魔术,而是用数据和计算构建的数学之美。
2025-07-26 00:16:12
792
原创 大模型「思考」的核心:注意力与自注意力机制
注意力(Attention)是一种让模型在处理信息时能够动态聚焦于最相关部分的关键机制,解决了长距离依赖和并行计算难题。自注意力(Self-Attention)是注意力在同一序列内部的应用,让序列中的每个元素都能与其他所有元素直接交互,深度理解上下文关系。它是 Transformer 架构的核心。多头自注意力(Multi-Head Self-Attention)让模型能够从多个不同视角并行理解序列,捕捉更丰富的语义和语法信息。位置编码(Positional Encoding)
2025-07-25 23:42:10
851
原创 从分治思想到矩阵乘法的分布式进化
分治本质:从MapReduce到GPU块分解,“分解-解决-合并” 是突破规模枷锁的不二法门硬件协同:算法必须拥抱硬件特性才能释放极限算力动态智能:增量计算标志着静态分治走向感知型分解当量子计算与光子芯片来临,分治思想仍将闪耀——因为复杂世界的解,永远始于对问题的优雅分解。
2025-07-25 01:12:25
957
原创 大语言模型:从神经网络到分布式计算
本文将从架构特征、并行策略、硬件加速三个维度,解析大模型如何通过和实现工程落地,并探讨Transformer架构的关键技术突破。
2025-07-25 00:25:04
593
原创 大型语言模型如何「一个字一个字」生成答案?
模型在推理时就像一个“循环预测机”:吃进之前的输出(作为新上下文的一部分),吐出一个新词,再吃进去,再吐新词… 直到完成。KV 缓存让这个循环变得高效可行,使得像 DeepSeek 这样的模型能流畅地进行实时对话。
2025-07-25 00:10:03
551
原创 GPU vs CPU:显卡、显存与矩阵计算的王者之争
比喻时刻:CPU: 像一位博学的教授。思维敏捷(高主频),知识渊博(复杂指令集),擅长解决复杂难题(通用计算、操作系统)和指导少量学生(处理少量线程)。但一次只能深入指导几个。GPU: 像一支规模庞大的小学生军团。每个孩子能力简单(核心简单),但人数极多(数千核心)。在统一号令(SIMT)下,能同时高效完成海量简单作业(并行计算)。他们依赖高速传送带(高带宽显存) 及时分发和收集作业(数据)。矩阵计算: 像要批改一百万份标准试卷。教授(CPU)批得快,但一次只能改几份或几十份(多线程/AVX)
2025-07-24 00:04:02
887
禅与摩托车维修艺术
2018-05-28
人件集:人性化的软件开发
2018-05-28
深入浅出面向对象分析与设计
2018-01-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人