![](https://img-blog.csdnimg.cn/20201208064224917.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习基础
对常见机器学习模型的基础,特别是其数学推导,进行系统性的梳理。
野营者007
csdn博客会更偏向于debug错误信息,会详细记录尝试安装软件、第三方库、研究新技术踩过的坑。
面试真题栏目只对粉丝开放。题目会包括笔试和面试,会尽可能还原当时的题目。
已经开始慢慢搭建自己的笔记体系,更多总结性的文章请移步https://csy99.github.io/Blog
展开
-
决策树Decision Tree
决策树既可以应用于分类问题,也可以应用于回归问题。应用优点非线性交叉效应稀疏性缺点不稳定表现力较差精度不足伪代码def TreeGenerate(D, A): 生成节点node if D中样本全属于类别C: 将node标记为C类叶节点 return if A = ∅ or D中样本在A上取值相同: 将node标记为D中样本数最多的类叶节点 return 从A中选择最优原创 2020-12-18 11:11:16 · 202 阅读 · 0 评论 -
梯度提升决策树GBDT及其优秀改进XGBoost的浅析
梯度提升决策树英文是Gradient Boosting Decision Tree (GBDT)。是一种迭代的决策树算法,由多棵决策树组成,将所有树的结论累加起来做最终答案。值得注意的是,GBDT中的树都是回归树,不是分类树。GBDT主要用于回归问题(包括线性和非线性),但也可以用于分类问题。我们在已经搞清楚决策树(DT)部分的前提下,可以简单看看梯度迭代(GB)。GB核心的思想就是每一棵树都在学习之前所有树结论和的残差。输入训练集数据D={(xi,yi)}i=1ND = \{(x_i,y_i)\}原创 2020-12-18 11:09:49 · 1413 阅读 · 0 评论 -
连续变量的转换:ECDF、Box-Cox、Yeo-Johnson
前言构造连续变量的衍生变量。在机器学习问题中,我们希望数据是服从正态分布的(或者一些常见的简单的分布)。然而,现实数据常常不服从正态分布。我们尝试进行转换,使之服从(至少更接近)正态分布。值得注意的是对于XXX和yyy的转换是不一样的。基于ECDF的转换ECDF的英文是Empirical cumulative distribution function。CDF就是统计中常说的累计分布,即P(X≤x)=F(x)P(X \le x) = F(x)P(X≤x)=F(x)。我们假设这个函数是可逆的。同时,我们原创 2020-12-17 11:45:51 · 2707 阅读 · 0 评论 -
实体嵌入Entity Embedding及代码实现
实体嵌入英文是Entity Embedding。我们希望深度学习能够处理结构化数据。在处理类别特征时,常用办法包括独热编码、顺序编码等。在NLP任务处理中,词和文章的表示都得益于嵌入。我们同样可以将这个思想在结构化数据领域加以运用。原理假设NNN表示分箱的数量,MMM表示嵌入的维度,BBB表示训练时候的批量尺寸。我们用x∈RB∗1x \in R^{B*1}x∈RB∗1代表输入数据,E∈RN∗ME \in R^{N*M}E∈RN∗M表示嵌入矩阵,c∈RN∗1c \in R^{N*1}c∈RN∗1表示分箱原创 2020-12-17 10:55:52 · 2679 阅读 · 0 评论 -
机器学习基础专题:高斯混合模型和最大期望EM算法以及代码实现
高斯混合模型混合模型是潜变量模型的一种,是最常见的形式之一。而高斯混合模型(Gaussian Mixture Models, GMM)是混合模型中最常见的一种。zzz代表该数据点是由某一个高斯分布产生的。π\piπ在这里是指该点属于哪一个高斯分布的先验概率。除次之外,我们还需要找到每一个高斯分布的参数,即均值和协方差矩阵。p(x)=∑k=1Kπkpk(x)(1)p(x)=∑k=1KπkN(x∣μk,Σk)(2)p(x) = \sum_{k=1}^K \pi_k p_k(x) \qquad \qquad原创 2020-12-09 06:47:03 · 608 阅读 · 0 评论 -
机器学习基础专题:随机变量
术语样本空间(sample space):Ω\OmegaΩ,包含了所有可能出现的结果的集合。比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示。事件集(event space): FFF,a collection of subsets of Ω\OmegaΩ,用来表示出现的结果。事件集未必是样本空间中的单一元素,也可以是复杂元素。比如在掷一次骰子的样本空间中,可以用{1,3,5}表示结果为奇数的事件。概率函数(probability function): PPP,该函数完成了从事件到该事件原创 2020-10-05 09:34:57 · 409 阅读 · 0 评论 -
机器学习基础专题:主成分分析技术PCA
主成分分析技术全称是Principal component analysis (PCA)。将原始数据从p个特征维度降低到d个维度。原理对原始特征空间进行重构。需要最大投影方差,尽可能保留数据在原空间的信息。投影就是xTwx^TwxTw,我们必须规定∣w∣=1|w| = 1∣w∣=1,否则可以通过增大www来增大投影方差,失去了意义。具体可以参见损失函数部分。从另外一个角度理解,就是需要最小化重构数据和原数据之间的距离。输入训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_原创 2020-09-23 11:49:26 · 117 阅读 · 0 评论 -
机器学习基础专题:高斯判别分析
高斯判别分析全称是Gaussian Discriminant Analysis (GDA)。大家不要被名字所误导,这是一种概率生成模型。原理对联合概率进行建模,我们假设y∼Bernoulli(Φ)y \sim Bernoulli(\Phi)y∼Bernoulli(Φ),且x∣y=1∼N(μ1,Σ)x|y=1 \sim N(\mu_1, \Sigma)x∣y=1∼N(μ1,Σ),x∣y=0∼N(μ0,Σ)x|y=0 \sim N(\mu_0, \Sigma)x∣y=0∼N(μ0,Σ)输入训练集数原创 2020-09-23 09:54:07 · 294 阅读 · 0 评论 -
机器学习基础专题:逻辑回归
逻辑回归广义线性模型。原理输入训练集数据T=(x1,y1)...(xM,yM)T = {(x_1,y_1) ... (x_M,y_M)}T=(x1,y1)...(xM,yM),xi∈X⊆Rnx_i \in \mathcal{X} \subseteq R^nxi∈X⊆Rn,yi∈Y⊆RKy_i \in \mathcal{Y} \subseteq R^Kyi∈Y⊆RK,二分类yi∈{−1,+1}y_i \in \{-1, +1\}yi∈{−1,+1}损失函数Cost(y,f(x))Co原创 2020-09-22 11:41:37 · 173 阅读 · 0 评论 -
机器学习基础专题:感知机
感知机原理思想是错误驱动。一开始赋予w一个初始值,通过计算被错误分类的样本不断移动分类边界。输入训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M,y_M)}D=(x1,y1)...(xM,yM),xi∈X⊆Rpx_i \in \mathcal{X} \subseteq R^pxi∈X⊆Rp,yi∈{−1,+1}y_i \in \{-1, +1\}yi∈{−1,+1}X=(x1 x2 ... xM)T∈RM∗p原创 2020-09-22 10:55:29 · 115 阅读 · 0 评论 -
机器学习基础专题:分类
线性分类分类方式硬分类使用的是非概率模型,分类结果是决策函数的决策结果。代表:线性判别分析、感知机软分类分类结果是属于不同类别的概率。生成式通过贝叶斯定理,使用MAP比较P(Y=0∣X)P(Y=0|X)P(Y=0∣X)和P(Y=1∣X)P(Y=1|X)P(Y=1∣X)的值。代表:Gaussian Discriminant Analysis判别式直接对P(Y|X)进行学习。代表:逻辑回归多分类学习一对一OvO将K个类别两两配对,产生K(K-1)/2个二分类任务。存储开销和测试时间原创 2020-09-22 10:54:39 · 219 阅读 · 0 评论 -
机器学习基础专题:线性判别器
线性判别分析全称是Linear Discriminant Analysis (LDA)。原理给定训练样例集,通过降维的思路进行分类。将样例投影到一条直线上,使得同类样例的投影点接近,异类样例的投影点尽可能远离。LDA降维最多降到类别数K-1的维数。输入训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M,y_M)}D=(x1,y1)...(xM,yM),xi∈X⊆Rnx_i \in \mathcal{X} \subseteq R^nxi∈X⊆Rn原创 2020-09-22 10:52:22 · 297 阅读 · 0 评论 -
机器学习基础专题:样本选择
样本选择选择最少量的训练集S⊂\sub⊂完整训练集T,模型效果不会变差。优势:缩减模型计算时间相关性太低的数据对解决问题没有帮助,直接剔除去除噪声数据去噪噪声数据特征值不对(缺失、超出值域范围),可能提升模型健壮性标注不对,降低数据质量。处理方法基于融合或者投票的思想集成过滤法Ensemble Filter交叉验证委员会过滤法Cross-Validated Committees Filter迭代分割过滤法Iterative-Partitioning Filter基于原创 2020-09-21 10:49:13 · 2206 阅读 · 0 评论 -
机器学习基础专题:特征工程
特征工程特征提取将原始数据转化为实向量之后,为了让模型更好地学习规律,对特征做进一步的变换。首先,要理解业务数据和业务逻辑。 其次,要理解模型和算法,清楚模型需要什么样的输入才能有精确的结果。探索性数据分析Exploratory Data Analysis (EDA)在尽量少的先验假设条件下,探索数据内部结构和规律。是一种方法论而不是特定技术。可视化箱型图、直方图、多变量图、散点图…定量技术样本均值、方差、分位数、峰度、偏度。数值特征截断太多的精度有可能是噪声。长尾数据可以先进行对数原创 2020-09-21 10:48:30 · 535 阅读 · 0 评论 -
机器学习基础专题:评估指标
评估指标线下使用机器学习评估指标,线上使用的是业务指标。需要进行多轮模型迭代使两个指标变化趋势相同。分类指标精确率和召回率用于二分类问题,结合混淆矩阵。精确率 P = TPTP+FP\frac{TP}{TP+FP}TP+FPTP召回率 R = TPTP+FN\frac{TP}{TP+FN}TP+FNTP精确率:也称作查准率。在被识别为正类别的样本中,确实是正类别的比例。召回率:也成为查全率。在所有正类别样本中,被正确识别为正类别的比例以召回率R为横轴,以精确率P为纵轴画P-R曲线,越靠原创 2020-09-21 10:47:07 · 170 阅读 · 0 评论 -
机器学习基础专题:高斯分布
记号和术语$X \in R^{N*p} = (x_1, x_2, …, x_N)^T $xi=(xi1,...,xip)Tx_i = (x_{i1}, ..., x_{ip})^Txi=(xi1,...,xip)T表示数据共有N个样本,每个样本的维度是p。iid,即Independent and identically distributed,表示一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。MLE,即maximum likelihood estimation,最大似然估计原创 2020-09-21 10:45:12 · 610 阅读 · 0 评论 -
机器学习基础专题:线性回归
线性回归原理输入训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M,y_M)}D=(x1,y1)...(xM,yM),xi∈X⊆Rpx_i \in \mathcal{X} \subseteq R^pxi∈X⊆Rp,yi∈Ry_i \in Ryi∈RX=(x1 x2 ... xM)T∈RM∗pX = (x_1\ x_2\ ...\ x_M)^T \in R^{M*p}X=(x1 x2 ...原创 2020-09-21 10:42:09 · 242 阅读 · 0 评论