2018年12月_齐在

原创【机器学习】非线性降维与核主成分分析KPCA

1. 核化线性降维线性降维方法假设从高维空间到低维空间的函数映射是线性的，然而在有些时候，高维空间是线性不可分的，需要找到一个非线性函数映射才能进行恰当的降维，这就是非线性降维。线性可分问题与线性不可分问题核化线性降维方法是一种典型的非线性降维方法，它基于核技巧对线性降维方法进行“核化”，然后再降维。下面我们将要介绍的核主成分分析（KPCA）就是一种经典的核化线性降维...

2018-12-25 20:47:02 4162

原创【机器学习】模型评估与选择（留出法、交叉验证法、查全率、查准率、偏差、方差）

1. 过拟合过拟合是指学习模型对训练样本预测得很好，但对新样本预测很差的现象。这通常是由于学习模型能力过于强大，以至于把训练样本自身的一些特点当做了一般性质。&amp;amp;amp;emsp;&amp;amp;amp;emsp;过拟合是无法彻底避免的，只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。

2018-12-22 16:27:48 18964

原创【机器学习】Stacking与K折交叉验证

由于之前这篇博客用富文本编辑器写的，公式老是出问题，现在用markdown重新编辑出来。1. Stacking定义 Stacking并不是简单地对个体学习器的结果做简单逻辑处理，而是先从初始数据集训练出初级学习器，将初级学习器的输出当成特征，初始样本的标记仍被当作标记，由此生成一个新数据集用于训练学习器。Stacking结构图2. Stacking原理假设我们有两个初级学...

2018-12-21 22:25:37 6721 1

原创【机器学习】深入剖析主成分分析（PCA）与协方差矩阵

1. 概念主成分分析（Pricipal Component Analysis，PCA）是最常用的一种降维方法，通过一个投影矩阵将可能存在相关性和冗余的特征转换为一组更低维度的线性不相关的特征，转换后的特征就叫做主成分。2. 原理在降维的过程中，我们希望损失的信息尽可能少，也就是希望保留的信息尽可能多。PCA用方差来度量信息量，在某个维度上，样本分布越分散，方差越大，信息越多。因此，...

2018-12-20 20:50:04 4834 4

原创【机器学习】K近邻法（KNN）与kd树原理详解

1. KNN概述 k近邻法（K-Nearest neighbor，kNN）是一种常用的监督学习方法，其工作机制为：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个“邻居”的信息来进行预测。通常，在分类任务中使用投票法计算最终预测结果，在回归任务中使用平均法，还可基于距离远近进行加权平均或加权投票。 kNN是懒惰学习（lazy learning）的典型代表，...

2018-12-19 11:13:18 3148 2

原创【机器学习】LP距离、欧式距离、曼哈顿距离、切比雪夫距离

设特征空间χ\chiχ是nnn维实数向量空间RnR^nRn，xi,xj∈χ{x_i},{x_j} \in \chixi,xj∈χ，xi=(xi(1),xi(2),⋯&amp;amp;amp;amp;ThinSpace;,xi(n))Tx _ { i } = \left( x _ { i } ^ { ( 1 ) } , x _ { i } ^ { ( 2 ) } , \cdots , x _ { i } ^ { (...

2018-12-18 16:04:39 10215 1

原创【机器学习】监督学习、非监督学习、批量学习、在线学习、基于实例学习、基于模型学习

机器学习可根据如下规则进行分类：是否在人类监督下进行训练（监督学习/非监督学习/半监督学习/强化学习）;是否可以动态渐进学习（批量学习/在线学习）；是否只是通过简单地比较新数据点和已知数据点，还是在训练数据中进行模式识别，以建立一个预测模型。1. 监督/非监督/半监督/强化学习机器学习可以根据训练时监督的量和类型进行分类，主要有四类：监督学习、非监督学习、半监督学习、强化学习。...

2018-12-18 13:26:08 3454 1

原创 JavaScript学习笔记——数据类型转换

一、显式类型转换（强制类型转换）：Number()、parseInt()、parseFloat()等1.Number()：Number()方法能将看起来像数字的字符串变成数字，将true转换为1，false转换为0；尽可能地转换。当遇到函数时，Number()方法无法对其转换，将输出NaN。var a='100';alert(a+100);//输出 100100alert(Numb...

2018-12-12 22:50:12 518

原创 JavaScript学习笔记——自定义属性

HTML标签属性是标签自带的属性，而自定义属性是标签本身没有的属性，比如abc属性，我们可以自定义这样一个属性。JS可以为任何HTML元素添加任意个自定义属性。自定义属性可以改，可以读。自定义属性除了可以是数字、布尔值等多种数据类型。var aBtn=document.getElementsByTagName('input');//JS可以为任何HTML元素添加任意个自定义属性...

2018-12-12 22:49:55 485

原创 JavaScript学习笔记——this指向及应用

1. 定义一个函数fn1()，函数中的this指向window。此时，调用fn1()实际上相当于是window.fn1(); 因此，this指向windowfunction fn1(){ alert('alert2'+this);//此时提示内容为[object window]};//同样地，对于函数也是一样的fn1();//实际上也就是window.fn1()2. 点击事件是...

2018-12-12 22:49:34 335

原创【机器学习】深入剖析梯度提升决策树(GBDT)分类与回归

1. 梯度提升决策树概述梯度提升决策树（Gradient Boosting Decision Tree，GBDT）是以决策树为基学习器的一种Boosting算法，它在每一轮迭代中建立一个决策树，使当前模型的残差在梯度方向上减少；然后将该决策树与当前模型进行线性组合得到新模型；不断重复，直到决策树数目达到指定的值，得到最终的强学习器。上一篇博客【机器学习】集成学习——Boosting与Ada...

2018-12-10 19:30:42 7353 1

原创【机器学习】Boosting与AdaBoost分类与回归原理详解与公式推导

1.BoostingBoosting族算法的工作机制为：先从初始训练集中训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，然后基于调整后的样本分布来训练下一个基学习器；重复进行，直到基学习器数目达到事先指定的值；最终将所有基学习器根据结合策略结合，得到最终的强学习器。Boosting中的基学习器是弱学习器，即仅仅比随机猜测好一点的模型，比如一个简单的决策树。使用弱学习器而不是...

2018-12-08 15:04:27 11477 3

原创【机器学习】Bagging与随机森林原理与算法描述

1.Bagging原理在介绍Bagging之前，我们首先介绍下自助采样法（Bootstrap sampling）。自助采样法的原理如下：对给定个样本的数据集，进行次随机有放回采样，得到含个样本的采样集，初始训练集中约有63.2％的样本出现在采样集中。Bagging（Bootstrap aggregating）正是直接基于自助采样法采样出个含个样本的采样集，然后基于每个采样集分别训练出一...

2018-12-04 22:00:28 2160

原创【机器学习】集成学习概述

1. 定义集成学习（Ensemble learning）通过构建多个个体学习器，并将其以某种结合策略集成起来，完成学习任务。集成学习常可获得比单一学习器显着优越的泛化性能。2. 概述集成学习的一般结构为：集成学习示意图如果集成中只包含同种类型的个体学习器，则这样的集成是同质的；相对应的，这样的个体学习器被称为“基学习器”，相应的学习算法被称为“基学习算法”。如果集成中...

2018-12-04 19:28:07 611

齐在的专栏