星辰如月-CSDN博客

原创机器学习--xgboost算法过程推导

一 .概述xgboost是boosting算法的其中一种，该算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。具体的目标函数如下：主要就是找到ft来优化这一目标函数，通过一个简单的例子来形象的理解该目标函数。例如是小明真实有100个糖果，现在建立一个决策系统来预测小明有多少个糖。首先建立一棵树，记为树1，它的预测结果是90个...

2019-11-14 22:33:45 445

原创机器学习--梯度下降法和牛顿法的比较

梯度下降法梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为：可以看出，梯度下降法更新参数的方式为目标函数在当前参数取值下的梯度值，前面再加上一个步长控制参数alpha。梯度下降法通常用一个三维图来展示，迭代过程就好像在不断地下坡，最终到达坡底。为了更形象地理解，也为了和牛顿法比较，这里我用一个二维图来表示：在二维图中，梯度就相当于凸函数切...

2019-11-14 21:49:19 793

原创机器学习--常用的特征工程方法

1、特征选择介绍（1）特征选择的定义对当前学习任务有价值的属性称为是“相关特征”，没有价值的属性称为是“无关特征”，从给定的特征集中选择出相关特征子集的过程，就称为是“特征选择”。　　其中还有一种特征称为是“冗余特征”，这些特征指的是可以从其他特征中推演出来的特征。（2）特征选择的重要性特征选择是一个“数据预处理”过程，它的重要性体现在两个方面：　　1）减轻维度灾难问题。　　2）去除...

2019-11-14 21:16:49 3386

原创机器学习--stacking和blending的原理和各自的优劣

一.Stacking和blending的概念(1).stacking是k折交叉验证，元模型的训练数据等同于基于模型的训练数据，该方法为每个样本都生成了元特征，每生成元特征的模型不一样（k是多少，每个模型的数量就是多少）；测试集生成元特征时，需要用到k（k fold不是模型）个加权平均；(2).blending是holdout方法，直接将训练集切割成两个部分，仅10%用于元模型的训练；...

2019-11-14 17:52:07 980

原创机器学习--bagging和boosting的思想简述以及各自的代表模型原理

1.baggingbagging算法是很基础的集成学习的方法，他的提出是为了增强分类器效果，但是在处理不平衡问题上却有很好的效果。如上图，原始数据集通过T次随机采样，得到T个与原始数据集相同大小的子数据集，分别训练得到T个弱分类器Classifier，然后结合为一个强分类器。以下给出随机采样的概率解释及效果分析：采用的是概率论里面的booststrap思想，由于小样本估计的不准确性，再加...

2019-11-14 17:44:12 1234

原创机器学习--决策树的损失函数是什么？怎么理解？

决策树的损失函数是什么？决策树的损失函数通常是正则化的极大似然函数。正则化的决策树损失函数：其中|T|代表叶节点个数，表示具体某个叶节点的样例数，表示叶节点经验熵。我们知道正则化的损失函数中前一项代表经验误差，而在概率模型中(决策树模型是一种概率模型)，经验误差函数的获得往往通过将极大似然函数取反，即将求极大化为求极小而获得。因此，在概率模型中，极大似然函数与经验误差函数可以认为是相同的...

2019-11-12 20:41:27 4487

原创机器学习--条件熵和信息增益的关系,怎么理解条件熵？

熵的概念：表示一个随机变量的复杂性或者不确定性。举例：假如双十一我要剁手买一件衣服，但是我一直犹豫着要不要买，我决定买这件事的不确定性（熵）为2.6。条件熵的概念：表示在直到某一条件后，某一随机变量的复杂性或不确定性。举例：我在看了这件衣服的评价后，我决定买衣服这件事的不确定性是1.2。我在线下实体店试穿衣服后，我决定买衣服这件事的不确定性是0.9。信息增益的概念：表示在知...

2019-11-12 19:54:53 387

原创机器学习--ID3算法的缺陷，为什么倾向特征选项较多的特征？

ID3算法的概念ID3算法十分简单，核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征，信息熵是信息论里面的概念，是信息的度量方式，不确定度越大或者说越混乱，熵就越大。在建立决策树的过程中，根据特征属性划分数据，使得原本“混乱”的数据的熵(混乱度)减少，按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据（贪心），也就是“最大信息熵增益”原则。ID3...

2019-11-12 19:29:35 2314

原创机器学习--向量的各种积有哪些及其表示

向量的各种积有哪些及其表示向量积（叉积，叉乘，外积） a×b = |a| * |b| * sinθ1.概述定义向量积，数学中又称外积、叉积，物理中称矢积、叉乘，是一种在向量空间中向量的二元运算。与点积不同，它的运算结果是一个向量而不是一个标量。并且两个向量的叉积与这两个向量和垂直。其应用也十分广泛，通常应用于物理学光学和计算机图形学中。2.表示方法两个向量a和b的叉积写作a×b（有时也被...

2019-11-11 21:39:54 1221

原创机器学习--如何理解svm的损失函数

如何理解svm的损失函数损失函数：是用来衡量一个预测器在对输入数据进行分类预测时的质量好坏。损失值越小，分类器的效果越好，越能反映输入数据与输出类别标签的关系（虽然我们的模型有时候会过拟合——这是由于训练数据被过度拟合，导致我们的模型失去了泛化能力）。相反，损失值越大，我们需要花更多的精力来提升模型的准确率。就参数化学习而言，这涉及到调整参数，比如需要调节权重矩阵W或偏置向量B，以提高分类的...

2019-11-11 21:39:41 377

原创机器学习--特征归一化的好处和cut qcut的区别

一，特征归一化的好处一、数据标准化的意义：1、数据的量纲不同；数量级差别很大经过标准化处理后，原始数据转化为无量纲化指标测评值，各指标值处于同一数量级别，可进行综合测评分析。如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。2、避免数值问题：太大的数会引发数值问题。3、平衡各特征的贡献一些分类器需要计算样本之间的距离（如欧氏距离）...

2019-11-10 19:11:10 565

原创机器学习--变量编码方式

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码。这样的操...

2019-11-10 18:42:37 396

原创机器学习--为什么离散化，离散化的优势

目录：1，为什么离散化2，离散化的优势1，特征离散化连续特征离散化的基本假设，是默认连续特征不同区间的取值对结果的贡献是不一样的。特征的连续值在不同的区间的重要性是不一样的，所以希望连续特征在不同的区间有不同的权重，实现的方法就是对特征进行划分区间，每个区间为一个新的特征。常用做法，就是先对特征进行排序，然后再按照等频离散化为N个区间。2，离散化的优势援引知乎严林的回答2：在工业界...

2019-11-10 18:14:27 436

原创机器学习--最小二乘法，最大似然估计，最大后验估计之间的关系，Precision(查准率)

对最小二乘法（Least Square）、最大似然估计（ Maximum Likelihood Estimation）和最大后验估计之间的关系的整理。一、最小二乘法最小二乘法的本质就是找到一个估计值，使实际值与估计值的距离最小。而为了度量最小距离，只要使实际值与估计值之差的平方最小就好，下面就是最小二乘的表达式损失函数cost function，我们的目标就是求θ。求解方法是通过梯度下降算...

2019-11-07 22:07:17 764

原创机器学习——过拟合产生的原因和正则化方法，以及特征值和特征向量

通常过拟合由以下三种原因产生： 1.假设过于复杂：注意奥卡姆剃刀原则 2.数据存在很多噪音： 3.数据规模太小：过拟合的解决方法通常有： 1.early stopping：采用交叉验证，设置一个k值，当连续k轮验证集上的指标都不上升时，停止训练 2.数据集扩增： (1)从数据源头采集更多数据； (2)数据增强：复制原有的数据并加上随机噪声...

2019-11-06 22:01:07 577

原创机器学习的几种梯度下降算法

导包import numpy as npimport osimport matplotlib.pyplot as plt%matplotlib inline定义保存图像的函数#随机种子np.random.seed(42)#保存图像PROJECT_ROOT_DIR ='.'MODEL_ID ='linear_models'def save_fig(fig_id, tig...

2019-11-05 20:48:24 400

原创机器学习简介

机器学习主要内容• 机器学习的概念• 机器学习主要分类• 监督学习三要素• 监督学习模型求解算法一、机器学习的概念• 机器学习是什么• 机器学习的开端• 机器学习的定义• 机器学习的过程• 机器学习示例机器学习是什么• 什么是学习–从人的学习说起–学习理论；从实践经验中总结–在理论上推导；在实践中检验–通过各种手段获取知识或技能的过程• 机...

2019-11-04 23:13:43 224

qq_44930315的博客