未响的铃铛-CSDN博客

原创 gboost算法的推导

一、xgboost的原理首先值得说明的是，xgboost是gbdt的升级版，有兴趣的话可以先看看gbdt的推导。xgboost同样是构造一棵棵树来拟合残差;不同之处在于（1）gbdt使用一阶导，xgboost使用二阶导。（2）xgboost在loss中包括模型复杂度，gbdt没有。二、xgboost的推导首先我们来定义一下模型：1.符号定义：2.模型定义　　　假设我们迭代T轮...

2019-11-14 19:56:21 1458

原创特征工程的方法及其说明

什么是特征工程？有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：我们今天主要说一下特征工程常用方法。特征工程常用方法1. 时间戳处理时间戳属性通常需要分离成多个维度比如年、月、日、小时、...

2019-11-14 19:22:42 197

作为集成学习的二个方法—bagging和boosting的实现比较容易理解，但是理论证明比较费力。下面首先介绍这两种方法。一、什么是集成学习？所谓的集成学习，就是用多重或多个弱分类器结合为一个强分类器，从而达到提升分类方法效果。严格来说，集成学习并不算是一种分类器，而是一种分类器结合的方法。Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的...

2019-11-14 09:07:44 353

原创决策树的相关知识

决策树生长的核心在于如何选择最优特征作为当前结点分割的特征。当决策树如此生长完成后，对训练集程度会很好，但是对测试集一般都会出现高方差、过拟合的现象，如何预防这种现象，就是预剪枝、后剪枝方法。而剪枝过程换个方法来讲，其实就是在优化降低Loss function的的过程。Loss function设决策树T的叶节点个数为, 是树的叶节点，该叶节点有个样本点，其中 k 类的样本点有个，,为该...

2019-11-12 19:22:04 432

原创 svm的损失函数

损失函数：是用来衡量一个预测器在对输入数据进行分类预测时的质量好坏。损失值越小，分类器的效果越好，越能反映输入数据与输出类别标签的关系（虽然我们的模型有时候会过拟合——这是由于训练数据被过度拟合，导致我们的模型失去了泛化能力）。相反，损失值越大，我们需要花更多的精力来提升模型的准确率。就参数化学习而言，这涉及到调整参数，比如需要调节权重矩阵W或偏置向量B，以提高分类的精度。一、SVM通常使用...

2019-11-11 19:07:09 238

原创向量的点乘和叉乘

向量是由n个实数组成的一个n行1列（n1）或一个1行n列（1n）的有序数组一、向量的点乘,也叫向量的内积、数量积，对两个向量执行点乘运算，就是对这两个向量对应位一一相乘之后求和的操作，点乘的结果是一个标量。点乘公式对于向量a和向量b：a和b的点积公式为：点乘几何意义点乘的几何意义是可以用来表征或计算两个向量之间的夹角，以及在b向量在a向量方向上的投影，有公式：二、叉乘公式两...

2019-11-11 18:09:52 9003

原创离散变量的编码方式

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码或Labe...

2019-11-08 20:30:14 867

原创机器学习---特征归一化处理

对于大多数的机器学习算法和优化算法来说，将特征值缩放到相同区间可以使得获取性能更好的模型。就梯度下降算法而言，例如有两个不同的特征，第一个特征的取值范围为1-10，第二个特征的取值范围1~10000。在梯度下降算法中，代价函数为最小平方误差函数，所以在使用梯度下降算法的时候，算法会明显的偏向于第二个特征。所以进行需要对特征归一化，今天我介绍一下归一化方法。一、两种常用的归一化方法：（1）min...

2019-11-08 19:51:29 3335

原创连续数据的离散化处理--pandas.cut与pandas.qcut

Python实现连续数据的离散化处理主要基于两个函数，pandas.cut和pandas.qcut，今天主要介绍这两个函数。我们先回忆一下，连续数据离散化方法中无监督学习方法主要有两种：等宽法等宽法即是将属性值分为具有相同宽度的区间，区间的个数k根据实际情况来决定。比如属性值在[0，60]之间，最小值为0，最大值为60，我们要将其分为3等分，则区间被划分为[0,20] 、[21,40] 、...

2019-11-08 18:45:29 1863

原创为什么将连续性特征离散化？

在学习机器学习中，看过挺多案例，看到很多人在处理数据的时候，经常把连续性特征离散化。为此挺好奇，为什么要这么做，什么情况下才要做呢？一、离散化原因数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。连续特征离散化的本质是：决定选择多少个分割点和确定分割点的位置。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点：1、算法需要比如决策树、朴素贝叶...

2019-11-08 17:07:46 1767

原创机器学习两种参数估计方法：最大似然估计和最小二乘法估计

最大似然估计原理：极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。联系：都是参数估计方法，当服从正态分布时，两都的结论相等。...

2019-11-07 20:09:02 3175 2

原创最大似然估计（MLE）和最大后验概率估计（MAP）

最大似然估计（MLE）和最大后验概率估计（MAP）是很常用的两种参数估计方法。下文将详细说明MLE和MAP的思路与区别。但别急，我们先从概率和统计的区别讲起。一、概率和统计是一个东西吗？概率（probabilty）和统计（statistics）看似两个相近的概念，其实研究的问题刚好相反。概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。...

2019-11-07 20:06:37 443

原创分类模型评价指标-召回率和精确率

如何评价一个分类模型的好坏，我们需要一些评价指标来评价分类模型的好与坏，我们今天主要讲解召回率和精确率的这两个评价指标。1.几个常用的术语现在假设我们的分类目标只有两类，计为正类（positive）和负类（negtive）分别是：1）True positives(TP): （真阳性）被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数（样本数）；2）False positiv...

2019-11-07 18:07:28 1484

原创过拟合的相关知识

过拟合的概念我们的数据在训练集中可能表现很好，但是在遇到新数据后表现就没有那么出色，这种现象叫过拟合。过拟合的原因1.数据有噪声数据噪声指在一组数据中无法解释的数据变动,就是一些不和其他数据相一致的数据。永远没有完美的数据，数据里的噪声会影响模型的学习，造成过拟合。2.训练数据过少3.模型过于复杂过拟合的解决方案1.正则化2.增加数据量3.丢弃一些不能帮助我们...

2019-11-06 19:03:45 124

原创两种正则化的区别

使用机器学习方法解决实际问题时，我们通常要用L1或L2范数做正则化（regularization），从而限制权值大小，减少过拟合风险。特别是在使用梯度下降来做目标函数优化时，很常见的说法是, L1正则化产生稀疏的权值, L2正则化产生平滑的权值。为什么会这样？这里面的本质原因是什么呢？下面我们从两个角度来解释这个问题。L1正则化表达式L2正则化表达式一、数学角度这个角度从权值的更新公...

2019-11-06 19:02:09 614 1

原创梯度下降算法的python代码

#导入模块import numpy as npimport osimport matplotlib.pyplot as plt%matplotlib inlinenp.random.seed(42)PROJECT_ROOT_DTR="."MODEL_ID="linear_models"#定义一个保存图像的函数def save_fig(fig_id,tight_layout=Tr...

2019-11-05 19:58:31 597

原创机器学习的基本常识

机器学习（Machine Learning)一、机器学习的概念为了解决任务T，设置一段程序，从经验E中学习，达到性能度量值P，当且仅当有了经验E后，经过P评判，程序在处理T时性能得到提升。自我理解：现在有新的问题需要解决，我们从历史数据中训练得到模型，经过不断的筛选，找到最适模型去预测并解决问题。二、机器学习分类1.有监督学习（带标签）分类：样本标签属于离散变量1.1.生成式模型...

2019-11-04 19:53:02 187

qq_45734454的博客