自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 机器学习--xgboost算法过程推导

一 .概述xgboost是boosting算法的其中一种,该算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。具体的目标函数如下:主要就是找到ft来优化这一目标函数,通过一个简单的例子来形象的理解该目标函数。例如是小明真实有100个糖果,现在建立一个决策系统来预测小明有多少个糖。首先建立一棵树,记为树1,它的预测结果是90个...

2019-11-14 22:33:45 399

原创 机器学习--梯度下降法和牛顿法的比较

梯度下降法梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为:可以看出,梯度下降法更新参数的方式为目标函数在当前参数取值下的梯度值,前面再加上一个步长控制参数alpha。梯度下降法通常用一个三维图来展示,迭代过程就好像在不断地下坡,最终到达坡底。为了更形象地理解,也为了和牛顿法比较,这里我用一个二维图来表示:在二维图中,梯度就相当于凸函数切...

2019-11-14 21:49:19 760

原创 机器学习--常用的特征工程方法

1、特征选择介绍(1)特征选择的定义对当前学习任务有价值的属性称为是“相关特征”,没有价值的属性称为是“无关特征”,从给定的特征集中选择出相关特征子集的过程,就称为是“特征选择”。  其中还有一种特征称为是“冗余特征”,这些特征指的是可以从其他特征中推演出来的特征。(2)特征选择的重要性特征选择是一个“数据预处理”过程,它的重要性体现在两个方面:  1)减轻维度灾难问题。  2)去除...

2019-11-14 21:16:49 3264

原创 机器学习--stacking和blending的原理和各自的优劣

一.Stacking和blending的概念(1).stacking是k折交叉验证,元模型的训练数据等同于基于模型的训练数据,该方法为每个样本都生成了元特征,每生成元特征的模型不一样(k是多少,每个模型的数量就是多少);测试集生成元特征时,需要用到k(k fold不是模型)个加权平均;(2).blending是holdout方法,直接将训练集切割成两个部分,仅10%用于元模型的训练;...

2019-11-14 17:52:07 956

原创 机器学习--bagging和boosting的思想简述以及各自的代表模型原理

1.baggingbagging算法是很基础的集成学习的方法,他的提出是为了增强分类器效果,但是在处理不平衡问题上却有很好的效果。如上图,原始数据集通过T次随机采样,得到T个与原始数据集相同大小的子数据集,分别训练得到T个弱分类器Classifier,然后结合为一个强分类器。以下给出随机采样的概率解释及效果分析:采用的是概率论里面的booststrap思想,由于小样本估计的不准确性,再加...

2019-11-14 17:44:12 1164

原创 机器学习--决策树的损失函数是什么?怎么理解?

决策树的损失函数是什么?决策树的损失函数通常是正则化的极大似然函数。正则化的决策树损失函数:其中|T|代表叶节点个数,表示具体某个叶节点的样例数,表示叶节点经验熵。我们知道正则化的损失函数中前一项代表经验误差,而在概率模型中(决策树模型是一种概率模型),经验误差函数的获得往往通过将极大似然函数取反,即将求极大化为求极小而获得。因此,在概率模型中,极大似然函数与经验误差函数可以认为是相同的...

2019-11-12 20:41:27 4292

原创 机器学习--条件熵和信息增益的关系,怎么理解条件熵?

熵的概念:表示一个随机变量的复杂性或者不确定性。举例:假如双十一我要剁手买一件衣服,但是我一直犹豫着要不要买,我决定买这件事的不确定性(熵)为2.6。条件熵的概念:表示在直到某一条件后,某一随机变量的复杂性或不确定性。举例:我在看了这件衣服的评价后,我决定买衣服这件事的不确定性是1.2。我在线下实体店试穿衣服后,我决定买衣服这件事的不确定性是0.9。信息增益的概念:表示在知...

2019-11-12 19:54:53 352

原创 机器学习--ID3算法的缺陷,为什么倾向特征选项较多的特征?

ID3算法的概念ID3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式,不确定度越大或者说越混乱,熵就越大。在建立决策树的过程中,根据特征属性划分数据,使得原本“混乱”的数据的熵(混乱度)减少,按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据(贪心),也就是“最大信息熵增益”原则。ID3...

2019-11-12 19:29:35 2068

原创 机器学习--向量的各种积有哪些及其表示

向量的各种积有哪些及其表示向量积(叉积,叉乘,外积) a×b = |a| * |b| * sinθ1.概述定义向量积,数学中又称外积、叉积,物理中称矢积、叉乘,是一种在向量空间中向量的二元运算。与点积不同,它的运算结果是一个向量而不是一个标量。并且两个向量的叉积与这两个向量和垂直。其应用也十分广泛,通常应用于物理学光学和计算机图形学中。2.表示方法两个向量a和b的叉积写作a×b(有时也被...

2019-11-11 21:39:54 1148

原创 机器学习--如何理解svm的损失函数

如何理解svm的损失函数损失函数:是用来衡量一个预测器在对输入数据进行分类预测时的质量好坏。损失值越小,分类器的效果越好,越能反映输入数据与输出类别标签的关系(虽然我们的模型有时候会过拟合——这是由于训练数据被过度拟合,导致我们的模型失去了泛化能力)。相反,损失值越大,我们需要花更多的精力来提升模型的准确率。就参数化学习而言,这涉及到调整参数,比如需要调节权重矩阵W或偏置向量B,以提高分类的...

2019-11-11 21:39:41 348

原创 机器学习--特征归一化的好处和cut qcut的区别

一,特征归一化的好处一、数据标准化的意义:1、数据的量纲不同;数量级差别很大经过标准化处理后,原始数据转化为无量纲化指标测评值,各指标值处于同一数量级别,可进行综合测评分析。如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。2、避免数值问题:太大的数会引发数值问题。3、平衡各特征的贡献一些分类器需要计算样本之间的距离(如欧氏距离)...

2019-11-10 19:11:10 550

原创 机器学习--变量编码方式

在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型(如LR),那么通常我们会对连续型特征进行离散化操作,然后再对离散的特征,进行one-hot编码或哑变量编码。这样的操...

2019-11-10 18:42:37 375

原创 机器学习--为什么离散化,离散化的优势

目录:1,为什么离散化2,离散化的优势1,特征离散化连续特征离散化的基本假设,是默认连续特征不同区间的取值对结果的贡献是不一样的。特征的连续值在不同的区间的重要性是不一样的,所以希望连续特征在不同的区间有不同的权重,实现的方法就是对特征进行划分区间,每个区间为一个新的特征。常用做法,就是先对特征进行排序,然后再按照等频离散化为N个区间。2,离散化的优势援引知乎严林的回答2:在工业界...

2019-11-10 18:14:27 365

原创 机器学习--最小二乘法,最大似然估计,最大后验估计之间的关系,Precision(查准率)

对最小二乘法(Least Square)、最大似然估计( Maximum Likelihood Estimation)和最大后验估计之间的关系的整理。一、最小二乘法最小二乘法的本质就是找到一个估计值,使实际值与估计值的距离最小。而为了度量最小距离,只要使实际值与估计值之差的平方最小就好,下面就是最小二乘的表达式损失函数cost function,我们的目标就是求θ。求解方法是通过梯度下降算...

2019-11-07 22:07:17 723

原创 机器学习——过拟合产生的原因和正则化方法,以及特征值和特征向量

通常过拟合由以下三种原因产生: 1.假设过于复杂:注意奥卡姆剃刀原则 2.数据存在很多噪音: 3.数据规模太小:过拟合的解决方法通常有: 1.early stopping:采用交叉验证,设置一个k值,当连续k轮验证集上的指标都不上升时,停止训练 2.数据集扩增: (1)从数据源头采集更多数据; (2)数据增强:复制原有的数据并加上随机噪声...

2019-11-06 22:01:07 541

原创 机器学习的几种梯度下降算法

导包import numpy as npimport osimport matplotlib.pyplot as plt%matplotlib inline定义保存图像的函数#随机种子np.random.seed(42)#保存图像PROJECT_ROOT_DIR ='.'MODEL_ID ='linear_models'def save_fig(fig_id, tig...

2019-11-05 20:48:24 386

原创 机器学习简介

机器学习主要内容• 机器学习的概念• 机器学习主要分类• 监督学习三要素• 监督学习模型求解算法一、机器学习的概念• 机器学习是什么• 机器学习的开端• 机器学习的定义• 机器学习的过程• 机器学习示例机器学习是什么• 什么是学习–从人的学习说起–学习理论;从实践经验中总结–在理论上推导;在实践中检验–通过各种手段获取知识或技能的过程• 机...

2019-11-04 23:13:43 208

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除