- 博客(16)
- 收藏
- 关注
原创 数据挖掘笔记-线性回归数学原理
本文探讨了三种线性回归的参数估计方法:最小二乘估计(LSE)、最大似然估计(MLE)和最大后验估计(MAP)。首先定义了数据矩阵和参数向量,推导了LSE通过最小化平方误差损失函数求解参数的过程。随后证明当噪声服从高斯分布时,MLE等价于LSE。最后引入贝叶斯视角的MAP方法,通过引入参数先验分布,推导出正则化最小二乘估计的形式,指出岭回归中的L2正则化对应高斯先验的MAP估计。三种方法在不同假设下展现了线性回归参数估计的内在联系,为解决过拟合问题提供了理论依据。
2026-04-18 09:35:56
198
原创 数据挖掘笔记-投影寻踪综合评价模型
本文提出了一种改进的投影寻踪方法,结合实数编码遗传算法(RAGA)处理高维数据评价问题。通过改进归一化公式防止数据归零,构建以标准差和局部密度为指标的目标函数,并采用RAGA优化投影向量。该方法利用实数编码加速计算,通过选择、杂交和变异操作迭代优化,最终收敛获得最佳投影方向。实验证明该方法具有强稳健性和准确性,适用于高维数据的特征提取与分析。
2026-04-18 09:35:25
192
原创 数据挖掘笔记-近端梯度下降求解LASSO回归
本文研究了LASSO回归的求解方法,重点分析了近端梯度下降算法的应用条件。首先证明了线性回归均方误差函数的梯度满足Lipschitz连续条件,推导了Lipschitz常数的上界与特征值的关系。在此基础上,阐述了近端梯度下降算法的原理,将其视为梯度下降与正则项处理的结合,并讨论了不同正则项对应的算法变体。最后通过二阶泰勒展开推导了迭代更新公式,为LASSO回归的数值求解提供了理论基础。
2026-04-18 09:34:51
191
原创 数据挖掘笔记-基于关联规则的分类算法
本文介绍了基于关联规则的分类算法(CBA),重点讲解了项集、频繁项集和关联规则的概念,并以购物交易数据集为例展示了支持度和置信度的计算方法。详细解析了Apriori算法的四个步骤:生成候选项集、剪枝、计算支持度和重复迭代过程。最后通过R语言的arulesCBA库演示了如何对iris数据集进行离散化处理并构建关联规则分类器,包括参数设置和实际应用示例。该算法通过挖掘数据中的频繁模式和关联规则来实现分类预测,在商业分析和数据挖掘领域具有重要应用价值。
2026-04-18 09:33:55
426
原创 数据挖掘笔记-概率论基础知识回顾
摘要 本文系统介绍了概率论中的核心概念。首先区分了概率符号$P$和$p$的含义,$P$表示概率函数,$p$表示具体概率值。其次阐述了条件概率的定义$P(A|B)=P(AB)/P(B)$及独立事件的条件$P(AB)=P(A)P(B)$。然后推导了全概率公式和贝叶斯公式,后者用于由果推因。在随机变量部分,区分了离散型和连续型变量,离散型用概率函数描述,连续型用概率密度函数$f(x)$和累积分布函数$F(x)$描述,两者关系为$F'(x)=f(x)$。最后指出离散型用概率函数求具体值概率,连续型用累积分布函数求区
2026-04-18 09:33:10
184
原创 数据挖掘笔记-二分类AdaBoost
本文通过例题详细讲解了AdaBoost算法的实现过程。AdaBoost通过调整样本权重和分类器权重,逐步提升模型性能:1) 每轮增加误分类样本权重,降低正确分类样本权重;2) 根据分类误差率赋予分类器不同权重,误差小的分类器权重更大。以10个一维离散数据为例,展示了三轮迭代过程:初始化等权重后,每轮选择最优弱分类器,计算误差率和分类器权重,更新样本权重,最终组合成准确率100%的强分类器。关键步骤包括权重更新公式、误差率计算和分类器权重确定,体现了AdaBoost通过加权多数表决提升模型性能的核心思想。
2026-04-18 09:32:28
206
原创 数据挖掘笔记-插值算法
对于缺失值的处理,比较常见的是数值分析中的插值和拟合这两种方法。插值指的是在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点;拟合则是找到一条“最优”的曲线,尽可能地贴近平面上一系列的点[1]。设函数 y=f(x)y=f(x)y=f(x) 在区间 [a,b][a,b][a,b] 上有定义,且已知在点:a≤x0<x1<⋯<xn≤b(1)a\le x_0<x_1<\cdots<x_n\le b\tag{1}a≤x0<x1<⋯<xn≤b(1)上的值分别为:y0,y1,⋯ ,yn
2026-04-15 10:27:53
398
原创 数据挖掘笔记-差异性分析
本文详细推导了卡方分布的概率密度函数。首先从标准正态分布出发,推导自由度为1的卡方分布,证明其服从伽马分布Ga(1/2,1/2)。然后通过卷积运算和伽马函数的性质,推广到自由度为n的卡方分布,最终证明n个独立标准正态变量平方和服从Ga(1/2,n/2)分布。推导过程涉及伽马函数、Beta函数、极坐标变换等数学工具,完整展现了卡方分布与伽马分布的关系。
2026-04-13 17:22:00
35
原创 数据挖掘笔记-相关性分析
本文介绍了三种常用的相关性分析方法:Pearson相关系数、Spearman相关系数和Kendall相关系数。Pearson适用于连续正态分布的线性关系数据,Spearman适用于单调关系的数据(包括离散变量),Kendall则更适合小样本的定序或连续变量分析。文章详细推导了各相关系数的计算公式,特别展示了Spearman相关系数从原始定义到简化公式(1-6∑d²/n(n²-1))的完整推导过程,并通过Python代码示例演示了如何计算Spearman相关系数矩阵及其显著性p值,最后用热力图可视化相关分析结
2026-04-13 17:21:28
145
原创 数据挖掘笔记-正态性检验
本文介绍了三种常用的正态性检验方法:Jarque-Bera检验、Shapiro-Wilk检验和Kolmogorov-Smirnov检验。Jarque-Bera检验通过样本偏度和峰度判断正态性,适用于大样本(n≥30)。Shapiro-Wilk检验基于样本顺序统计量,适合小样本(3≤n≤50)。K-S检验则比较经验分布与理论分布的差异。文中通过Python代码演示了各检验的实现,包括数据转换前后正态性的变化。结果显示,对数变换能显著改善数据的正态性特征。这些方法为判断数据分布特性提供了有效工具。
2026-04-13 17:20:57
161
原创 数据挖掘学习笔记:朴素贝叶斯
本文介绍了朴素贝叶斯分类器的核心原理与应用。首先从贝叶斯决策论出发,推导出最小化分类错误率的最优分类器表达式。然后比较了生成式模型与判别式模型的区别,重点阐述了朴素贝叶斯基于属性条件独立性假设的后验概率计算方法。文章详细讨论了离散属性和连续属性的概率估计方法,包括拉普拉斯修正和正态分布假设下的极大似然估计。最后指出实际应用中可能需要调整概率分布假设以优化模型性能,并提供了糖尿病预测数据集的实践示例。全文系统性地讲解了朴素贝叶斯的理论基础、概率估计方法和实践考量,为理解和应用这一经典分类算法提供了全面指导。
2026-04-13 17:20:26
150
原创 MMoE-学习笔记
本文介绍了多任务学习模型在电商推荐系统中的应用与演进。首先分析了样本加权方法的局限性,然后详细阐述了Shared-Bottom、MoE、MMoE等模型结构的特点和数学原理。其中,Shared-Bottom通过参数共享提升效率,MoE引入专家网络解决任务冲突,MMoE为每个任务配备专属门控网络。接着介绍了阿里ESMM模型通过概率乘法公式解决样本偏差问题,以及腾讯PLE模型通过任务专属专家和渐进分层提取来优化负迁移问题。这些方法逐步解决了多任务学习中的样本稀疏、任务冲突和负迁移等核心挑战,为电商推荐系统的点击率
2026-04-13 17:18:56
332
原创 推荐系统学习笔记2:基于物品的协同过滤
本文介绍了基于物品的协同过滤推荐算法(ItemCF)的核心步骤。首先定义了用户-物品交互矩阵,通过统计物品流行度和构建共现矩阵(计算同时被用户喜欢的物品对)建立基础数据。然后基于条件概率计算物品相似度矩阵,其中相似度定义为喜欢物品i的用户中也喜欢物品j的比例。最后通过用户历史评分与物品相似度的加权和预测用户对未评分物品的兴趣得分。文中提供了各步骤的数学表达式和Python代码实现,包括共现矩阵构建、相似度计算和兴趣预测三个关键环节。
2026-04-13 17:18:07
354
原创 推荐系统学习笔记1:推荐系统基础
推荐系统评估与优化方法 摘要:推荐系统评估主要关注消费指标(点击率、曝光率等)和北极星指标(DAU、MAU等),其中发布渗透率特别衡量用户从消费者转为创作者的比例。系统优化采用"离线实验→小流量测试→全量上线"的三阶段流程,通过A/B测试验证改进效果。推荐链路包含召回、粗排、精排和重排四个环节,使用哈希分桶技术实现流量分层管理,确保同层实验互斥、不同层实验正交,从而准确评估策略效果。仿真代码展示了流量均匀分配和正交性验证过程,以及实验效应的计算方法。
2026-04-13 17:17:36
389
原创 3B1B-深度学习入门笔记-2:梯度下降法
这篇笔记介绍了深度学习中的梯度下降法原理。首先解释了如何通过代价函数评估神经网络的表现,即计算输出值与目标值之间的平方差。然后详细说明了梯度下降法的运作机制:通过计算函数梯度确定最陡下降方向,并按照学习率调整权重和偏置以逼近局部最小值。笔记指出多层感知机并非按照人类理解的模式学习,而是通过调整13000个参数在训练集中寻找最优解。最后提到这种网络会将噪声误判为特定数字,说明其学习方式与人类认知存在差异。文章还附有相关示意图和3Blue1Brown视频参考资料。
2026-04-13 17:16:32
175
原创 3B1B-深度学习入门笔记-1:神经网络的结构
这篇文章介绍了神经网络的基本结构和运行原理。主要内容包括:1) 神经元作为存储0-1数值的容器,784个输入神经元对应28×28像素图像;2) 隐藏层通过权重矩阵识别数字特征(如边、圆等),权重设计需考虑周围像素的影响;3) 激活函数(Sigmoid/ReLU)的作用及比较,ReLU能有效避免梯度消失问题;4) 神经网络通过层层组合简单特征(边→图案→数字)实现复杂识别功能。文章通过可视化权重矩阵和激活值,生动展示了神经网络如何从像素级输入逐步识别数字特征的过程。
2026-04-13 17:15:59
553
空空如也
这个求积是怎么转化成求和的?
2023-03-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅