齐在-CSDN博客

原创专题：机器学习进阶之路——学习笔记整理

现将自己机器学习方面的学习笔记整理如下，后续还会继续更新：机器学习基本概念监督学习、非监督学习、批量学习、在线学习、基于实例学习、基于模型学习经验风险最小化与结构风险最小化模型评估与选择（留出法、交叉验证法、查全率、查准率、偏差、方差）线性回归原理推导与算法描述最优化方法：梯度下降法一文读懂正则化与LASSO回归，Ridge回归逻辑斯蒂回归原理推导与求解多项逻辑斯蒂回归/sof...

2019-01-17 15:21:33 4998

原创【机器学习】支持向量机原理与序列最小最优化算法SMO

支持向量机学习方法包含：线性可分支持向量机、线性支持向量机、非线性支持向量机。刘建平老师的SVM系列写的很清晰易懂，大家可以参考。这里只把在SVM学习过程中的一些要注意的点记录下来。（1）∣wTx+b∣\left| w ^ { T } x + b \right|∣∣wTx+b∣∣表示点xxx距离超平面的相...

2019-02-24 14:32:37 1480

在介绍二次规划问题前，我们先介绍正定矩阵和半正定矩阵的定义：正定矩阵：设MMM是nnn阶方阵，如果对任何非零向量zzz，都有zTMz&amp;amp;gt;0z^T Mz&amp;amp;gt;0zTMz&amp;gt;0，则称MMM为正定矩阵。半正定矩阵：设MMM是nnn阶方阵，如果对任何非零向量zzz，都有zTMz≥0z^T Mz≥0zTMz≥0，则称MMM为半正定矩阵。二次规划（Quadrat...

2019-02-22 10:29:16 2631

原创【机器学习】拉格朗日乘子法

在约束最优化问题中，常利用拉格朗日乘子法将原始问题转换为对偶问题求解。即通过引入拉格朗日乘子，将有ddd个变量和kkk个约束条件的最优化问题转化为具有d+kd+kd+k个变量的无约束优化问题求解。这种方法的最典型应用是在支持向量机当中。考虑具有mmm个等式约束和nnn个不等式约束，且可行域D⊂Rd\mathbb { D } \subset \mathbb { R } ^ { d }D⊂Rd非空的...

2019-02-22 09:56:09 1184

原创【机器学习】神经网络详解

该文已经收录到专题机器学习进阶之路当中，欢迎大家关注。1. 从感知机到神经网络在上一篇博客【机器学习】感知机原理详解当中，我们介绍了感知机，这是一种二分类的线性分类模型，只有输出层神经元进行激活函数处理，即只拥有一层功能神经元，学习能力十分有限。将感知机扩展成为神经网络，主要从三个方面来增强表达能力：隐藏层可以有多层；输出层神经元可以有多个输出；对激活函数作扩展，有sigmo...

2019-02-21 15:00:40 1318

原创【机器学习】感知机原理详解

1. 感知机概述感知机（perceptron）是二分类的线性分类模型，属于监督学习算法。输入为实例的特征向量，输出为实例的类别（取+1和-1）。感知机旨在求出将输入空间中的实例划分为两类的分离超平面。为求得超平面，感知机导入了基于误分类的损失函数，利用梯度下降法对损失函数进行最优化求解。如果训练数据集是线性可分的，则感知机一定能求得分离超平面。如果是非线性可分的数据，则无法获得超平面。...

2019-01-13 11:24:48 33578 4

原创【机器学习】特征选择（过滤式、包裹式、嵌入式）

1. 前言从给定的特征集合中选择出相关特征子集的过程，称为“特征选择”。特征选择是一个重要的数据预处理过程，进行特征选择的原因如下：减少特征数量、降维，使模型泛化能力更强，减少过拟合；去除不相关特征，降低学习难度。常见的特征选择方法大致可以分为三类：过滤式、包裹式和嵌入式。2. 过滤式选择过滤式方法先对数据集进行特征选择，然后再训练学习器。特征选择过程与后续学习...

2019-01-11 17:14:34 24514 2

原创【机器学习】基于密度的聚类DBSCAN

1. 密度聚类密度聚类假设聚类结构能够通过样本分布的紧密程度确定，其主要思想是：通过样本之间是否紧密相连来判断样本点是否属于同一个簇。这类算法能克服基于距离的算法（如K-Means）只能发现凸聚类的缺点，可以发现任意形状的聚类，且对噪声数据不敏感，但计算密度大暖的计算复杂度大，需要建立空间索引来降低计算量。2. DBSCAN算法 DBSCAN（Density-Based Spat...

2019-01-06 11:27:56 1669

原创【机器学习】K-Means聚类及其变体

1. 聚类聚类就是对未知标记的数据，按照其内部规律，将数据划分为多个不同类别（亦称“簇”，cluster），使簇内数据比较相似，而簇间数据差别较大。聚类和分类的区别： 1. 分类是有监督学习，它基于有标记数据进行算法模型构建； 2. 聚类属于无监督学习，基于无标记数据。2. K-Means原理 K-Means算法（又称K均值算法），是最简单经典的聚类算法。在所有的聚...

2019-01-02 20:23:12 2137

原创【机器学习】非线性降维与核主成分分析KPCA

1. 核化线性降维线性降维方法假设从高维空间到低维空间的函数映射是线性的，然而在有些时候，高维空间是线性不可分的，需要找到一个非线性函数映射才能进行恰当的降维，这就是非线性降维。线性可分问题与线性不可分问题核化线性降维方法是一种典型的非线性降维方法，它基于核技巧对线性降维方法进行“核化”，然后再降维。下面我们将要介绍的核主成分分析（KPCA）就是一种经典的核化线性降维...

2018-12-25 20:47:02 4632

原创【机器学习】模型评估与选择（留出法、交叉验证法、查全率、查准率、偏差、方差）

1. 过拟合过拟合是指学习模型对训练样本预测得很好，但对新样本预测很差的现象。这通常是由于学习模型能力过于强大，以至于把训练样本自身的一些特点当做了一般性质。&amp;amp;amp;emsp;&amp;amp;amp;emsp;过拟合是无法彻底避免的，只能缓解。模型选择就是要旨在避免过拟合并提高模型的预测能力。

2018-12-22 16:27:48 20695

原创【机器学习】Stacking与K折交叉验证

由于之前这篇博客用富文本编辑器写的，公式老是出问题，现在用markdown重新编辑出来。1. Stacking定义 Stacking并不是简单地对个体学习器的结果做简单逻辑处理，而是先从初始数据集训练出初级学习器，将初级学习器的输出当成特征，初始样本的标记仍被当作标记，由此生成一个新数据集用于训练学习器。Stacking结构图2. Stacking原理假设我们有两个初级学...

2018-12-21 22:25:37 8031 1

原创【机器学习】深入剖析主成分分析（PCA）与协方差矩阵

1. 概念主成分分析（Pricipal Component Analysis，PCA）是最常用的一种降维方法，通过一个投影矩阵将可能存在相关性和冗余的特征转换为一组更低维度的线性不相关的特征，转换后的特征就叫做主成分。2. 原理在降维的过程中，我们希望损失的信息尽可能少，也就是希望保留的信息尽可能多。PCA用方差来度量信息量，在某个维度上，样本分布越分散，方差越大，信息越多。因此，...

2018-12-20 20:50:04 6880 4

原创【机器学习】K近邻法（KNN）与kd树原理详解

1. KNN概述 k近邻法（K-Nearest neighbor，kNN）是一种常用的监督学习方法，其工作机制为：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个“邻居”的信息来进行预测。通常，在分类任务中使用投票法计算最终预测结果，在回归任务中使用平均法，还可基于距离远近进行加权平均或加权投票。 kNN是懒惰学习（lazy learning）的典型代表，...

2018-12-19 11:13:18 4279 2

原创【机器学习】LP距离、欧式距离、曼哈顿距离、切比雪夫距离

设特征空间χ\chiχ是nnn维实数向量空间RnR^nRn，xi,xj∈χ{x_i},{x_j} \in \chixi,xj∈χ，xi=(xi(1),xi(2),⋯&amp;amp;amp;amp;ThinSpace;,xi(n))Tx _ { i } = \left( x _ { i } ^ { ( 1 ) } , x _ { i } ^ { ( 2 ) } , \cdots , x _ { i } ^ { (...

2018-12-18 16:04:39 11022 1

原创【机器学习】监督学习、非监督学习、批量学习、在线学习、基于实例学习、基于模型学习

机器学习可根据如下规则进行分类：是否在人类监督下进行训练（监督学习/非监督学习/半监督学习/强化学习）;是否可以动态渐进学习（批量学习/在线学习）；是否只是通过简单地比较新数据点和已知数据点，还是在训练数据中进行模式识别，以建立一个预测模型。1. 监督/非监督/半监督/强化学习机器学习可以根据训练时监督的量和类型进行分类，主要有四类：监督学习、非监督学习、半监督学习、强化学习。...

2018-12-18 13:26:08 3837 1

原创 JavaScript学习笔记——数据类型转换

一、显式类型转换（强制类型转换）：Number()、parseInt()、parseFloat()等1.Number()：Number()方法能将看起来像数字的字符串变成数字，将true转换为1，false转换为0；尽可能地转换。当遇到函数时，Number()方法无法对其转换，将输出NaN。var a='100';alert(a+100);//输出 100100alert(Numb...

2018-12-12 22:50:12 600

原创 JavaScript学习笔记——自定义属性

HTML标签属性是标签自带的属性，而自定义属性是标签本身没有的属性，比如abc属性，我们可以自定义这样一个属性。JS可以为任何HTML元素添加任意个自定义属性。自定义属性可以改，可以读。自定义属性除了可以是数字、布尔值等多种数据类型。var aBtn=document.getElementsByTagName('input');//JS可以为任何HTML元素添加任意个自定义属性...

2018-12-12 22:49:55 553

原创 JavaScript学习笔记——this指向及应用

1. 定义一个函数fn1()，函数中的this指向window。此时，调用fn1()实际上相当于是window.fn1(); 因此，this指向windowfunction fn1(){ alert('alert2'+this);//此时提示内容为[object window]};//同样地，对于函数也是一样的fn1();//实际上也就是window.fn1()2. 点击事件是...

2018-12-12 22:49:34 412

原创【机器学习】深入剖析梯度提升决策树(GBDT)分类与回归

1. 梯度提升决策树概述梯度提升决策树（Gradient Boosting Decision Tree，GBDT）是以决策树为基学习器的一种Boosting算法，它在每一轮迭代中建立一个决策树，使当前模型的残差在梯度方向上减少；然后将该决策树与当前模型进行线性组合得到新模型；不断重复，直到决策树数目达到指定的值，得到最终的强学习器。上一篇博客【机器学习】集成学习——Boosting与Ada...

2018-12-10 19:30:42 10093 1

原创【机器学习】Boosting与AdaBoost分类与回归原理详解与公式推导

1.BoostingBoosting族算法的工作机制为：先从初始训练集中训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，然后基于调整后的样本分布来训练下一个基学习器；重复进行，直到基学习器数目达到事先指定的值；最终将所有基学习器根据结合策略结合，得到最终的强学习器。Boosting中的基学习器是弱学习器，即仅仅比随机猜测好一点的模型，比如一个简单的决策树。使用弱学习器而不是...

2018-12-08 15:04:27 12050 3

原创【机器学习】Bagging与随机森林原理与算法描述

1.Bagging原理在介绍Bagging之前，我们首先介绍下自助采样法（Bootstrap sampling）。自助采样法的原理如下：对给定个样本的数据集，进行次随机有放回采样，得到含个样本的采样集，初始训练集中约有63.2％的样本出现在采样集中。Bagging（Bootstrap aggregating）正是直接基于自助采样法采样出个含个样本的采样集，然后基于每个采样集分别训练出一...

2018-12-04 22:00:28 3041

原创【机器学习】集成学习概述

1. 定义集成学习（Ensemble learning）通过构建多个个体学习器，并将其以某种结合策略集成起来，完成学习任务。集成学习常可获得比单一学习器显着优越的泛化性能。2. 概述集成学习的一般结构为：集成学习示意图如果集成中只包含同种类型的个体学习器，则这样的集成是同质的；相对应的，这样的个体学习器被称为“基学习器”，相应的学习算法被称为“基学习算法”。如果集成中...

2018-12-04 19:28:07 821

原创【机器学习】决策树详解之分类与回归树（CART）

2018-11-19 16:15:46 4091 1

原创【机器学习】决策树生成与剪枝详解

1. 决策树模型决策树是一种基于树的结构来进行决策的模型。它从根结点开始，对样本的某一特征进行测试，根据测试结果将样本分配到子结点中；然后不断递归地对样本进行测试再分配，直到达到叶结点；最后将样本分到叶结点的类中。决策树本质上就是从训练数据集中归纳出一组规则，可以把决策树看成是if-then规则的集合。决策树学习通常包括三个步骤：划分选择、决策树生成、决策树剪枝。决策树生成只考虑局部最优，...

2018-11-16 22:28:45 5421

原创【机器学习】经验风险最小化与结构风险最小化

1. 损失函数和风险函数损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。常用的损失函数有以下几种：（1）0-1损失函数（0-1 loss function）（1）（2）平方损失函数（quadratic loss functio...

2018-11-11 21:58:12 16099

原创【机器学习】基本概念

1. 基本术语机器学习：是基于数据建立模型并运用模型对数据进行预测和分析的一门学科。它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析和预测中。特征/属性：反映事件或对象在某方面的表现或性质的事项。样本：关于一个事件或对象的描述。数据集：多条样本记录的集合。输入空间/输出空间：输入和输出所有可能取值的集合。学习/训练：从数据中学得模型的过程...

2018-10-30 21:44:42 1464

原创【机器学习】多项逻辑斯蒂回归/softmax回归推导与求解

1. 多项逻辑斯蒂回归模型多项逻辑斯蒂回归模型（multi-nominal logistic regression model），又称为Softmax Regression，是一个用来预测离散型随机变量的不同可能结果的概率的模型，用于进行多项分类。前面在逻辑斯蒂回归原理推导与求解中讲到的逻辑斯蒂回归模型是二项分类模型，用于二分类。将其推广为多项分类，假设离散型随机变量的取值集合是，那么多项...

2018-10-14 22:17:15 10339 1

原创【机器学习】逻辑斯蒂回归原理推导与求解

1.概念逻辑斯蒂回归又称为“对数几率回归”，虽然名字有回归，但是实际上却是一种经典的分类方法，其主要思想是：根据现有数据对分类边界线（Decision Boundary）建立回归公式，以此进行分类。2.特点1. 优点：计算代价不高，具有可解释性，易于实现。不仅可以预测出类别，而且可以得到近似概率预测，对许多需要利用概率辅助决策的任务很有用。2. 缺点：容易欠拟合，分类精度可能不高。...

2018-10-13 22:32:54 12851 3

原创【机器学习】一文读懂正则化与LASSO回归，Ridge回归

该文已经收录到专题机器学习进阶之路当中，欢迎大家关注。1.过拟合当样本特征很多，样本数相对较少时，模型容易陷入过拟合。为了缓解过拟合问题，有两种方法：方法一：减少特征数量（人工选择重要特征来保留，会丢弃部分信息）。方法二：正则化（减少特征参数的数量级）。2.正则化（Regularization）正则化是结构风险（损失函数+正则化项）最小化策略的体...

2018-10-10 20:53:35 73264 15

原创【机器学习】最优化方法：梯度下降法

1. 概念梯度下降法（Gradient Descent）又称最速下降法（Steepest descent）是一种常用的一阶优化方法，是一种用于求解无约束最优化问题的最常用的方法。它选取适当的初始值，并不断向负梯度方向迭代更新，实现目标函数的极小化，直到收敛。2. 梯度下降的直观解释以下山法作为类别，我们想要从山的某个位置下山，但我们并不知道山脚的位置，只能走一步算一步。从当前位置出发，...

2018-09-05 22:38:04 7026 2

原创【机器学习】线性回归原理推导与算法描述

该文已经收录到专题机器学习进阶之路当中，欢迎大家关注。1. 概念线性回归（Linear Regression）是一种通过属性的线性组合来进行预测的线性模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。2. 特点优点：结果具有很好的可解释性（w直观表达了各属性在预测中的重要性），计算熵不复杂。缺点：对非线性数据拟合不好适用数据类...

2018-09-04 20:55:39 34494 14

原创 web前端学习笔记（七）——定位层

定位层的概念：1. 定位层是由html元素（标签）形成的一个特殊的box盒子。2. 其重点在于“定位”，而html元素（标签）的定位方式由CSS来控制。通常情况下，html元素（标签）默认的定位方式叫做“静态定位”，存在于普通文档流中，而定位层则是指的那些修改了定位方式的box，即非静态定位的box。3. 定位层的“定位”需要根据参照对象来实现定位的位置。4. 定位层的主要作用是用...

2018-08-30 21:32:17 2190

原创 web前端学习笔记（五）——表格

HTML表格结构表格的作用及应用场景：呈现数据或统计信息表格的html基本结构包括：表格区<table>、表格行<tr>、单元格<td>。3个基本表亲是表格的基本构成结构，缺一不可且嵌套关系不可改变。多个<td>形成<tr>，多个<tr>形成<table>。表格结构的扩展如果使用<

2018-08-30 14:55:48 3039

原创 web前端学习笔记（四）——表单

HTML表单结构定义：表单是手机用户数据信息的各种表单元素的集合区域。作用：实现网页上的数据交互，手机客户端输入的数据信息，提交到网站服务器端进行处理。最常见的应用：1. 注册/登录 2. 搜索 3. 留言/评论 4. 文件上传/文章编辑结构：表单区域+表单控件（表单元素）表单标签：<forem> 双标签，块状元素。用来定义网页中的交互输入的区域（表单区）。所有...

2018-08-29 15:08:52 5966

原创 web前端学习笔记（三）

HTML5：布局类标签HTML是具有语义化的语言，针对网页的布局，有一类标签代表各种意义的“布局盒子”。所有的布局类标签都主要用来构建页面的内容区域，是双标签类型，是双标签类型，默认显示为块状元素。通用的布局标签：<div>。语义：无明确的含义，通常就是代表“盒子”；应用：根据布局的需要，可以使用到任何地方，可以用id和class来对<div>进行定义或区分。H...

2018-08-28 15:12:47 15096 1

原创 JavaScript学习笔记——获取元素的动态方法getElementByTagName

获取元素的第一个方法（静态方法）：对于设置了id的元素，使用var oUl=document.getElementById('list');//#list{} list是某个ul元素的id名获取元素的第二个方法（动态方法）：对于页面上所有的某类元素，通过页面去找：document.getElementsByTagName('li');//li {}区别：1. 第一种方法前面只...

2018-08-19 11:22:11 4880 1

原创 web前端学习笔记（一）

web前端的定义：是面向用户（浏览者）的互联网技术统称。主要包括Web界面的结构、Web界面的外观视觉表现以及Web界面的交互实现。Web前端的分类：前端设计和前端架构。 HTML结构语言：超文本标记语言。通过各种标记符号（标签）来代表网页中的内容元素、将网页中的内容结构化。特点：通过浏览器来解析、文件名为html或htm。 2. CSS样式语言（样式表）：实现表...

2018-07-29 09:50:39 34861 5

原创二进制基础

Bit（比特）计算机中最小的数据单元，只有0/1两个可能的值。1个字节包含8个比特。十进制(Decimal)基数是10。10个数字符号，0/1/2/3/4/5/6/7/8/9 2.二进制(Binary)基数是2。2个数字符号，0/1 3.八进制(Octal)基数是8。10个数字符号，0/1/2/3/4/5/6/7 4.十六进制基数是16...

2018-07-18 08:58:42 708

转载一些大牛的博客推荐，排名不分先后

今天看到一篇文章，收藏了很多大牛的博客，在这里分享一下（转载于：http://blog.csdn.net/wujxiaoz/article/details/8237096）Android中文WikiAndroidStudio-NDK开发-移动开发团队谦虚的天下 - 博客园gundumw100博客 - android进阶分类文章列表 - ITeye技术网站CSDN博文精选：And

2015-03-11 18:27:36 11415

空空如也

空空如也