我是阿尔卑斯狗-CSDN博客

原创变量编码方式

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码。这样的操...

2019-11-15 10:29:53 805

原创决策树--ID3算法

本章来了解一下机器学习中常见的一种方法–决策树目录文章目录决策树ID3条件熵ID3算法缺点决策树损失函数：首先，我们来了解一下什么是决策树决策树决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策...

2019-11-12 20:46:07 995 1

原创向量的花里胡哨积

此篇文章是关于向量的各种积及其表示方式的阐述首先，我们先来了解一下什么是向量?向量在数学中，向量（也称为欧几里得向量、几何向量、矢量），指具有大小（magnitude）和方向的量。它可以形象化地表示为带箭头的线段。箭头所指：代表向量的方向；线段长度：代表向量的大小。与向量对应的量叫做数量（物理学中称标量），数量（或标量）只有大小，没有方向。向量的记法：印刷体记作黑体（粗体）的字母（如a、b...

2019-11-12 09:05:24 253

原创理解SVM损失函数

这一章我们来理解一下SVM损失函数1、Hinge损失函数首先我们来看什么是合页损失函数（hinge loss function）：

2019-11-11 23:32:27 1376

原创二次型

二次型（quadratic form）：n个变量的二次多项式称为二次型，即在一个多项式中，未知数的个数为任意多个，但每一项的次数都为2的多项式。线性代数的重要内容之一，它起源于几何学中二次曲线方程和二次曲面方程化为标准形问题的研究。二次型理论与域的特征有关二次型是n个变量上的二次齐次多项式。下面给出一个、两个、和三个变量的二次形式：其中a, …,f是系数。注意一般的二次函数和二次方程不是二次...

2019-11-11 23:21:15 740

原创 Slater与KKT条件

本章简要介绍一下SVM(支持向量机)里面关键的对偶问题，KKT条件，slater条件对偶KKT条件Slater条件什么是对偶？对偶问题，就是将原问题（primal problem）转化为对偶问题（dual problem）然后在进行求解的方法。详细解说对偶优化问题可以表示为：minf0(x)minf0(x)s.t.fi(x)<=0i=1,2,…n;hj(x)=0j=1,2...

2019-11-11 22:51:08 5985

原创特征值与特征向量

特征值和特征向量的由来原文链接：https://blog.csdn.net/z735640642/article/details/86166589我们先来看一下这俩货的定义：单纯从定义来说可能不好理解，我们可以了解一下特征值和特征向量的几何意义我们以一个恋爱故事为栗子：二维公园（坐标轴）里的椅子上有一个孤独的向量v（-2，2），一个忠心（不变）的矩阵A试图从左边搭讪向量v，于是他们坐在一...

2019-11-10 17:46:50 332

原创极大似然法与最小二乘法的区别与联系

看似最小二乘估计与最大似然估计在推导得到的结果很相似，但是其前提条件必须引起大家的注意！！！对于最小二乘估计，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小，其推导过程如下所示。其中Q表示误差，Yi表示估计值，Yi’表示观测值。对于最大似然法，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，也就是概率分布函数或者说是似然函数最大。显然...

2019-11-10 17:46:33 1133

原创特征归一化

目录特征归一化的概念特征归一化必要性数据标准化的意义数据标准化的方法特征归一化的概念数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上。特征归一化必要...

2019-11-10 17:46:08 653

原创为什么离散化，离散化的优势

在机器学习中，很多人在处理连续数据的时候，很多情况下要将连续数据离散化，那么什么时候离散化，离散化的好处是什么？目录连续数据概念离散化概念离散化原因离散化的优势连续数据概念连续数据，统计学概念，又称连续变量。指在一定区间内可以任意取值、数值是连续不断的、相邻两个数值可作无限分割（即可取无限个数值）的数据离散化概念百度概念：离散化，把无限空间中有限的个体映射到有限的空间中去，以...

2019-11-10 15:13:28 2587

原创最大似然估计与最大后验估计

现代机器学习的终极问题都会转化为解目标函数的优化问题，MLE和MAP是生成这个函数的很基本的思想，因此我们对二者的认知是非常重要的。两大学派的争论频率学派 - Frequentist - Maximum Likelihood Estimation (MLE，最大似然估计)贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP，最大后验估计)在对事物建模时，...

2019-11-08 09:04:10 245

原创误差度量

机器学习分类模型存在一种情况叫偏斜类。偏斜类简单理解就是在训练模型时由于正样本和负样本之间的严重不平衡，导致模型最后检测全部都是1或者全部都是0。假设正样本的y值为1，当正样本远远多于负样本的时候，训练好的模型就会一直输出1，这会给我们判断模型优劣带来一定的障碍，比如模型输出1的概率是99.8%，输出0的概率是0.2%，这里我们就会认为模型的精度很好，误差很小。但是其实这种结果是由于数据集的不平衡...

2019-11-08 09:01:31 1097 1

原创浅谈过拟合

概念为了得到一致假设而使假设变得过度严格称为过拟合。定义给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。判断方法一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。出现这种现象的主...

2019-11-07 09:06:25 211

原创 Python实现梯度下降算法

上一篇文章中，我们了解到了梯度下降算法的三种形式，本篇我们来实现一下利用python实现梯度下降算法1. 批量梯度下降算法(Batch Gradient Descent)我们在python里面实现可视化，首先需要导入一些必要的包，代码如下：import numpy as np import os%matplotlib inlineimport matplotlib.pyplot as ...

2019-11-06 09:08:12 1755

原创机器学习笔记

机器学习算法定义：为了解决任务T，设计一段程序，从经验E中学习，达到性能度量值P，当且有了经验E之后，经过P评判，程序在处理T时的性能得到提升分类条件概率中的经典 - - 贝叶斯公式机器学习基本流程1 选择特征2 选择模型，分类，回归，聚类等。3 训练模型4 评估机器学习方法的三要素1 模型2 策略3 算法在机器学习中，判断一个模型好不好，需要一些指标，所以我们引入了...

2019-11-05 09:13:05 145

qq_44204370的博客