weixin_43484614-CSDN博客

原创机器学习线性回归之交叉验证

不能在训练集上进行模型性能评估，而应该在新的测试数据上进行，这对应着推广能力、泛化能力。但在实际应用中，测试数据的标签是未知、待预测的，那怎么办呢？一般是从训练数据中分出一部分作为校验集，该集合不参与训练，训练数据被切分得到的两个数据集，被称为是训练集和校验集，但好像有些时候也把拆分之前的训练数据叫作训练集，所以当出现训练集这样的属于时，有必要的话，需要明确时拆分之前，还是拆分之后的。当数据很多时...

2024-05-09 09:08:04 564

原创机器学习线性回归之损失函数与过拟合

自我记录总结之用，可能不适合他人。预测值用y冒表示。真值用y表示。残差(Residual) = R = y - y冒。残差平方 = #beginR^2#end新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，...

2024-05-09 09:07:45 1055 1

原创机器学习线性回归之梯度下降

为什么要使用梯度下降　　∙\bullet∙解析求解法中对N*D的输入矩阵X进行SVD分解的复杂度是O(N2D)O(N^2D)O(N2D)　　∙\bullet∙样本数目N很大或者特征维数D很大时，SVD计算的复杂度很高，或者机器的内存根本就不够。为了解决这个问题，可采用以下方式进行优化求解：梯度下降、随即梯度下降、次梯度下降、坐标轴下降等。梯度下降(Gradient Descent)是求解无约束...

2024-05-09 09:07:33 568 1

原创机器学习线性回归Scikit-Learn API

1.损失函数一节涉及到的API∙\bullet∙ Scikit-Learn中实现了采用Huber损失的回归模型：HuberRegressor　　#Huber损失　　from sklearn.linear_model import HuberRegressor　　huber = HuberRegressor()　　huber.fit(X_train, y_train)　　y_train_...

2024-05-09 09:07:23 914 1

原创机器学习线性回归之回归模型评价指标

阿斯顿发∙\bullet∙ 开方均方误差RMSE(Rooted Mean Squared Error)RMSE(y,y^)=1N∑i=1N(yi−y^i)2RMSE(y, \hat y) = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (y_{i} - \hat y_{i})^2} RMSE(y,y^)=N1i=1∑N(yi−y^i)2∙\bullet∙ 平...

2024-05-09 09:07:05 809 1

原创 logistic回归3—正则项

Logistic回归的目标函数∙\bullet∙ Logistic回归的损失函数采用Logistic损失

2024-05-08 19:46:27 747

原创 logistic回归1—简介

监督学习(Supervised Learning)∙\bullet∙ 训练数据：给定训练数据集D={xi,yi}i=1ND=\{\mathbf x_{i},y_{i}\}_{i=1}^ND={xi,yi}i=1N，其中N为训练样本数目，i为训练样本索引，xi\mathbf x_{i}xi为第i各样本的输入特征，yiy_{i}yi为对应的输出\响应。∙\bullet∙ 回归：根据训练样...

2024-05-08 19:46:07 679

原创 logistic回归2—损失函数

分类任务定义∙\bullet∙ 给定训练数据D={xi,yi}i=1ND=\{{\mathbf x_{i}, y_{i}}\}_{i=1}^ND={xi,yi}i=1N，其中N为训练样本的数目，i为样本索引，xi\mathbf x_{i}xi为第i个样本的输入特征，yiy_{i}yi为对应的输出/响应，yi∈σ，σ={1,...,C}y_{i} \in \sigma，\sigma=\{...

2024-05-08 19:45:50 841

原创 Logistic回归4—牛顿法

牛顿法∙\bullet∙ 牛顿法亦被称为牛顿-拉夫逊(Newton-Raphson)方法。牛顿在17世纪提出来用于求解方程的根。∙\bullet∙ 假设点x∗x^*x∗为函数f(x)f(x)f(x)的根，则f(x∗)=0f(x^*) = 0f(x∗)=0。∙\bullet∙ 将函数f(x)f(x)f(x)在点xtx^txt处进行一阶泰勒展开有：f(x)≈f(xt)+(x−xt)f′(xt)f...

2024-05-08 19:45:36 788 1

原创 Logistic回归5—优化求解

Logistic回归的目标函数∙\bullet∙ Logistic回归的损失函数采用Logistic损失/交叉熵损失L(y,μ(x))=−ylogμ(x)−(1−y)log(1−μ(x))L(y, \mu(x)) = -ylog\mu(x) - (1-y)log(1-\mu(x))L(y,μ(x))=−ylogμ(x)−(1−y)log(1−μ(x))∙\bullet∙ 其中y为真值，μ(x)=...

2024-05-08 19:45:25 1060

原创 Logistic回归6—多类分类任务

多类分类任务的实现方式：1对其他∙\bullet∙ 一对其他(One-vs-Rest, OVR)。对每个类别c，训练一个Logistic回归分类器fwc(x)f_{w}^c(\mathbf x)fwc(x)，预测y=cy=cy=c的概率。fwc(x)=P(y=c∣x,w),c=1,2,3f_{w}^c(\mathbf x) = P(y=c|\mathbf x, \mathbf w), c=1...

2024-05-08 19:45:10 679 1

原创 Logistic回归7—类别样本不均衡

爱是地方

2024-05-08 19:44:55 1056 1

原创常用数学公式

求导公式

2024-05-08 19:43:21 180

原创 SVM2—带松弛变量的SVM模型

当数据完全线性可分时∙\bullet∙ 最大化间隔的超平面，即SVM分类模型：maxw,b2∣∣w∣∣2max_{w,b}\frac{2}{||\mathbf w||_{2}}maxw,b∣∣w∣∣22s.t. yi(wTxi+b)>=1,i=1,...,Ns.t.\space\space\space y_{i}(\mathbf w^T \mathb...

2024-05-08 19:42:46 792 1

原创 SVM1—简介

SVM(Support Vector Machine)，既可以做分类，也可以做回归。线性回归和Logistic回归是从概率角度出发来推导原理，而SVM是从几何的角度出发。1. SVM：从几何出发的分类模型∙\bullet∙ 假定线性判别函数为：f(x)=wT+bf(\mathbf x) = \mathbf w^T + bf(x)=wT+b∙\bullet∙ 如果f(x)=wT+b=0f(\m...

2024-05-08 19:42:33 663 1

原创 SVM4—核方法

核方法∙\bullet∙ 前面我们用超平面（线性模型）来分开不同类型的训练箱体∙\bullet∙ 但在实际任务中，原始样本空间也许不存在一个超平面能将训练样本分开，例如：∙\bullet∙ 对这类问题，我们可以将原始空间映射到一个更高维的空间，使得在这个特征空间数据线性可分∙\bullet∙ 令ϕ(x)\phi(\mathbf x)ϕ(x)表示将x\mathbf xx映射后的特征向量，则在...

2024-05-08 19:42:19 747 1

原创 SVM5—支持向量回归SVR

ϵ\epsilonϵ不敏感损失函数∙\bullet∙ 在之前的线性回归模型中，只有当真值与预测值完全相等时，我们才认为损失为0(L2损失、L1损失、Huber损失)。∙\bullet∙ 在支持向量回归中，我们能容忍真值与预测值存在ϵ\epsilonϵ的偏差，即当yyy与y^\hat yy^之间的差异大于ϵ\epsilonϵ时才计算损失，称为ϵ\epsilonϵ不敏感损失(ϵ\epsilonϵ...

2024-05-08 19:42:05 814 1

原创 SVM3—对偶问题(目标函数求解)_很多细节不明白未记录

∙\bullet∙ C-SVM的目标函数是带不等式约束的问题。J(w;b;C)=12∣∣w∣∣22+C∑i=1NξiJ(\mathbf w;b;C) = \frac{1}{2}||\mathbf w||_{2}^2 + C\sum_{i=1}^{N}\xi_{i}J(w;b;C)=21∣∣w∣∣22+Ci=1∑Nξi subject to yi(w0+wTxi)&gt...

2024-05-08 19:41:36 589 1

原创机器学习—决策树1

简介∙\bullet∙ 流行的决策树算法有： ID3、C4.5和CART。∙\bullet∙ 不同的决策树方法区别：选择特征/阈值(xj=tx_{j}= txj=t)进行节点分裂的准则不同。　　１）ID3：信息增益最大（对标签y提供信息最多的特征），倾向于选择取值多的特征进行分裂。　　２）C4.5：ID3的改进，信息增益率最大　　３）CART：分类：GINI指数最小；回归：均方误差最小...

2024-05-08 19:40:57 935 1

原创机器学习—决策树2

CART树∙\bullet∙ CART是二叉树，既可以做分类，也可以做回归。由于是二叉树，分裂条件不是等号，而是不等号。∙\bullet∙ CART是二分递归划分：将当前样本集合划分为两个子集，为两个子节点，使得生成的每个非叶子节点都有两个分支。回归决策树　　回归决策树也存在两个需要兼顾的方面，一是要误差少，与训练样本拟合得差不多，二是模型不要太复杂，在决策树里，就是区间不要太多，因为每...

2024-05-08 19:40:25 579 1

原创机器学习—决策树3

例：建树∙\bullet∙ 根据蘑菇属性判断蘑菇有毒还是可食用：mushroom.csvP代表有毒，e代表可食用。∙\bullet∙ 将类别型特征进行标签编码：LabelEncoder。Scikit-Learn要求输入为数值特征。Scikit-Learn中需要的是数字输入，所以就转换为数字了。对于颜色这样本身无序的特征，如果是线性回归、Logistic回归，由于是要与w进行乘积的，是不能...

2024-05-07 20:02:25 941 1

原创集成机器学习1—Bagging和随机森林1

1 模型的预测误差∙\bullet∙ 我们希望模型尽可能准确地描述数据背后的真实规律。∙\bullet∙ 准确就是预测误差小∙\bullet∙ 误差有三种来源，分别是：随机误差、偏差(bias)、方差(variance)∙\bullet∙ 随机误差是不可消除的，与产生数据的机制有关(如不同精度的设备得到的数据随机误差不同)。∙\bullet∙ 偏差和方差与“欠拟合”及“过拟合”联系在一起...

2024-05-07 20:01:56 972 1

原创集成机器学习2—Bagging和随机森林2

1 随机森林∙\bullet∙ 决策树很容易过拟合，即偏差低、方差高。如果训练样本为一个叶子节点，误差为0。∙\bullet∙ Bagging是一种降低算法方差的方法，主要方式是平均多个模型的预测。Bagging：Bootstrap aggregating（自助聚集）。Bootstrap是一种样本采样方式，aggregating即是对模型进行平均∙\bullet∙ Bagging适合对偏差低...

2024-05-07 20:01:44 644 1

原创集成机器学习5—Adaboost

1 Boosting∙\bullet∙ Boosting：将弱学习器组合成强学习器。　　∙\bullet∙ 构造一个性能很高的预测（强学习器）是一件很困难的事情　　∙\bullet∙ 但构造一个性能一般的预测（弱学习器）并不难　　　　∙\bullet∙ 弱学习器：性能比随机猜测略好(如层数不深的决策树)∙\bullet∙ Boosting学习框架　　∙\bullet∙ 学习第一个弱学习...

2024-05-07 20:01:24 814 1

原创集成机器学习7—Scikit-Learn中的GBM—GBDT

∙\bullet∙ Scikit-Learn中的GBM采用的弱学习器是决策树，所以叫做GBDT。一般不常用GBDT，而用其他实现较好的方式XGBoost、LightGBM。∙\bullet∙ CART的简单历史两位教授在CART的基础之上，分别提出了Boosting和Bagging的方式。随机森林通过Bagging能够降低模型的方差，但偏差没有变化，所以需要每棵树精度比较高，也就是偏差比较小，...

2024-05-07 20:01:13 349 1

原创集成机器学习6—GBM

1 Boosting的一般框架１.初始化f0(x)f_0(x)f0(x)2.for m = 1 : M do　　∙\bullet∙ 找一个弱学习器ϕm(x)\phi_m(\mathbf x)ϕm(x)，使得ϕm(x)\phi_m(\mathbf x)ϕm(x)能改进fm−1(x)f_{m-1}(\mathbf x)fm−1(x)　　∙\bullet∙ 更新fm(x)=fm−1(x)...

2024-05-07 20:00:50 965 1

原创集成机器学习8—XGBoost原理

XGBoost∙\bullet∙ XGBoost: eXtreme Gradient Boosting∙\bullet∙ Gradient Boosting Machines(GBM)的C++优化实现，快速有效。由DMLC(Distributed(Deep) Machine Learning Community)维护。∙\bullet∙ Tianqi Chen（on Quora.com）: ...

2024-05-07 20:00:40 763 1

原创集成机器学习12—LightGBM原理

1 LightGBM：Light Gradient Boosting Machine∙\bullet∙ LightGBM是Microsoft开发的一个GBDT算法框架，支持高效率的并行训练，并且具有以下有点　　∙\bullet∙ 更快的训练速度　　∙\bullet∙ 更低的内存消耗　　∙\bullet∙ 更好的准确率　　∙\bullet∙ 分布式支持，可以快速处理海量数据　　对于更好...

2024-05-07 20:00:27 1114 1

原创 Logistic回归7—分类模型的性能评价指标

１分类模型评估∙\bullet∙ 判断一个分类器对所用样本的分类能力，或者在不同的应用场合时需要有不同的指标。∙\bullet∙ Scikit-Learn中，评价指标计算可对每个样本施加权重，权重通过参数sample_weight指定。老师：在样本上施加权重，该样本上的指标乘以权重，可以得到所有样本的平均指标。那么这个平均的用词是否合适呢？２分类模型的评价指标2.1 logistic损...

2024-05-07 20:00:07 1290 1

原创非监督学习1—PCA降维原理

1. 降维∙\bullet∙ 降维：将原始高维数据降维到低维空间，这个低维空间也被称为嵌入空间　　∙\bullet∙ 原始的高维数据存在冗余　　∙\bullet∙ 数据的本质维度（intrinsic dimension）很低　　∙\bullet∙ 例：手写数字　　　　∙\bullet∙ 原始特征：28 * 28 = 784　　　　∙\bullet∙ 本质维度：方向、风格　　　...

2024-05-07 19:59:49 670

原创概率统计之期望方差协方差

奥术法师打法　　∙\bullet∙ 期望公式：E(X)=∑i=1nxi∗piE(X) = \sum_{i=1}^{n}x_{i} * p_{i}E(X)=i=1∑nxi∗pi　　∙\bullet∙ 方差公式：D(X)=E[(X−E(X))2]=∑j=1n(xj−∑i=1nxi∗pi)2∗pjD(X) = E[(X-E(X))^2] = \sum_{j=1}^{n}(x_{j} - \su...

2024-05-07 19:58:07 802 1

原创机器学习线性回归之坐标轴下降

梯度下降是非常有效的优化算法，但前提是目标函数可导。Lasso的目标函数是J(w)=∣∣y−Xw∣∣22+λ∣∣w∣∣1J(\mathbf w) = ||\mathbf y - X\mathbf w||_2^2 +\lambda||w||_{1}J(w)=∣∣y−Xw∣∣22+λ∣∣w∣∣1，其中正则项中的∣∣w∣∣1||w||_{1}∣∣w∣∣1为绝对值函数，在w=0点处不可导，无法计算梯...

2024-05-07 19:57:26 844 1

原创机器学习线性回归之解析求解

解析求解最小二乘法(OLS)的目标函数J(w)=∑i=1N(yi−f(xi))2J(w)=\sum_{i=1}^{N}(y_{i} - f(x_{i}))^2J(w)=i=1∑N(yi−f(xi))2岭回归的目标函数J(w;w)=∑i=1N(yi−f(xi))2+λ∑j=1Dwj2J(w;w)=\sum_{i=1}^{N}(y_{i} - f(x_{i}))^2 + \lambda\su...

2024-05-07 19:56:46 911 1

原创线性代数—行列式

行列式的概念是从解线性方程组的问题中引入的。对于二元线性一次方程组：a11x1+a12x2=b1a21x1+a22x2=b2\begin{alignedat}{3} a_{11}x_{1} + a_{12}x_{2}=b_{1}\\ a_{21}x_{1} + a_{22}x_{2}=b_{2} \end{alignedat}a11x1+a12x2=b1a21x1+a22...

2024-05-07 19:56:03 978 1

原创决策树学习

在第二波人工智能中，主要研究专家系统，决策树在专家系统中被广泛使用。流行的决策书算法有，ID3、C4.5(由ID3的作者改进而来)、CART（分类回归树，即既可以作分类，也可以做回归），这些算法的建树过程基本相似，都是从根节点开始向下分裂，所不同是选取的分裂特征和阈值的方法有所不同。选择方法：ID3：信息增益最大（对标签Y提供信息最多的特征），倾向于选择取值多的特征进行分裂。C4.5：ID...

2024-05-07 10:25:59 448 1

weixin_43484614的博客