a16111597162163-CSDN博客

转载机器学习：集成学习（ensemble learning）（一）——原理概述

集成学习（ensemble learning）集成学习通过构建多个个体学习器，然后再用某种策略将他们结合起来，产生一个有较好效果的强学习器来完成任务。基本原理如下图所示。这里主要有三个关键点：个体学习器的同质异质、个体学习器的生成方式、结合策略。同质异质。首先需要明确的是个体学习器至少不差于弱学习器。弱学习器常指泛化性能略优于随机猜测的学习器，例如二分类问题中精度略高于50%的分...

2018-09-19 21:28:00 954

转载机器学习：SVM（四）——sklearn参数

一 SVM参数二高斯核调参转载于:https://www.cnblogs.com/lyxML/p/9668386.html

2018-09-18 14:53:00 172

转载机器学习：SVM（三）——序列最小最优化（SMO）算法

前面都只是讨论了向量机的最终形式以及推导过程，但是最终形式的求解没有给出。有许多最优化算法可以用于问题求解，但是当训练样本容量很大时，这些算法往往变得非常低效，以致无法使用。而SMO算法便是一种便捷高效算法。其实理清思路后，原理很好理解。避免麻烦直接贴图片。参考：李航《统计学习方法》周志华《机器学习》[https://www.jianshu.com/p/55458...

2018-09-17 21:14:00 306

转载机器学习：SVM（二）——线性支持向量机以及非线性支持向量机

线性支持向量机首先我们给出下面两种情况，如图所示。第一种数据线性可分，那么肯定存在唯一的超平面将样本完全分开，并满足间隔最大化，此时分类器就是上一篇中的线性可分支持向量机。但是现实情况中完全线性可分情况很少。第二种数据中，由于蓝绿两个样本的存在，实际上根本不可能存在一个超平面（二维中为直线）将数据完全分开，除非分割面如红线所示（此时已经不是平面，为超曲面）。由于只是少量样本导致的...

2018-09-17 17:24:00 3494

转载机器学习：SVM（一）——线性可分支持向量机原理与公式推导

原理SVM基本模型是定义在特征空间上的二分类线性分类器（可推广为多分类），学习策略为间隔最大化，可形式化为一个求解凸二次规划问题，也等价于正则化的合页损失函数的最小化问题。求解算法为序列最小最优化算法（SMO）当数据集线性可分时，通过硬间隔最大化，学习一个线性分类器；数据集近似线性可分时，即存在一小部分outlier，除这些点外，其他的样本线性可分，此时通过软间隔最大化，学习一个线...

2018-09-13 20:26:00 924

转载机器学习：决策树（二）——sklearn决策树调参

参数解析参数DecisionTreeClassifierDecisionTreeRegressor特征选择标准criterion可以使用"gini"或者"entropy"，前者代表基尼系数，后者代表信息增益。一般说使用默认的基尼系数"gini"就可以了，即CART算法。除非你更喜欢类似ID3, C4.5的最优特征选择方法。可以使用"mse"或者"mae"，前者是...

2018-09-11 18:56:00 218

转载机器学习：决策树（一）——原理与代码实现

决策树是一种基本的分类与回归方法。以分类为例，可以认为是if-then规则的集合，也可以认为是定义在特征空间与类别空间上的条件概率分布。一般分为三个步骤：特征选择，决策树生成，决策树剪枝。熵与条件熵熵是度量随机变量不确定性（集合不纯度）的一种指标。\(X\)是一个取有限个值得离散随机变量，其概率分布\(P(X=\mathbf{x}_i)=p_i,i=1,2,3,...n\),则随机...

2018-09-02 19:58:00 285

转载 git与github（总结，非教程,基于Bash而非GUI）

为了清楚方便，把两者分开。其实如果不需要分工协作的话，单单Git就可以满足个人工作需要，然后在GitHub上学习开源的项目。当然有项目需要多人分工，需要两者结合使用。Git下载客户端，安装在本地某盘新建文件夹，文件夹内，右键“Git ”Bash Here"，出现一个终端窗口。输入"git init"命令把文件夹变成repository。repository（仓库）里所有文件每个文...

2018-08-29 19:08:00 70

转载机器学习：逻辑回归——原理与代码实现

一逻辑回归线性回归虽然简单，却有丰富的变化。其形式如下（为书写方便，偏置写进权重向量）：\[y=\mathbf{w^Tx}\]考虑单调可微函数\(g\),令\(g(y)=\mathbf{w^Tx}\),在形式上仍然是线性回归，但实质上是在求取输入空间到输出空间的非线性函数映射，其中\(y=g^{-1}(\mathbf{w^Tx})\),这样得到的模型称为“广义线性模型”考虑二分类...

2018-08-25 15:52:00 236

转载机器学习：线性回归——理论与代码实现（基于正规方程与梯度下降）

一线性模型给定由n个属性描述的列向量\(f(\mathbf{x})={(x^{(1)};x^{(2)};...;x^{(n)})}\)，其中 \(x^{(j)}\)是\(\textbf{x}\)在第\(j\)个属性的取值。线性模型即为通过对属性进行线性组合的函数，即\[f(\mathbf{x})=w_0+w_1x^{(1)}+...+w_nx^{(n)}\]写成向量形式如下：...

2018-08-24 18:31:00 205

转载机器学习：贝叶斯分类器（二）——高斯朴素贝叶斯分类器代码实现

一高斯朴素贝叶斯分类器代码实现网上搜索不调用sklearn实现的朴素贝叶斯分类器基本很少，即使有也是结合文本分类的多项式或伯努利类型，因此自己写了一遍能直接封装的高斯类型NB分类器，当然与真正的源码相比少了很多属性和方法，有兴趣的可以自己添加。代码如下（有详细注释）：class NaiveBayes(): '''高斯朴素贝叶斯分类器''' def __init...

2018-08-24 17:54:00 2914

转载机器学习：贝叶斯分类器（一）——朴素贝叶斯分类器

一理论基础对于分类任务来说，贝叶斯决策论在所有相关概率已知的理想情况下，考虑如何基于这些概率和误判损失来选择最优的类别标记。下面推导其基本原理，\(X\)为输入空间上的随机向量，\(Y\)为输出空间上的随机变量，选择0-1损失函数,：\[\mathit{L}(Y,f(X))=\left\{\begin{matrix}1, &Y\neq f(X) \\ 0,& Y...

2018-08-23 19:46:00 390

转载机器学习：kNN算法（二）—— 实战：改进约会网站的配对效果

一利用KNN进行对象匹配　　某个在线约会网站对于注册用户推荐不同的对象，某个用户把他们分为不喜欢的人，喜欢的人，非常喜欢的人。现在希望通过之前一段时间此用户划分的对象数据，进行分析。然后自动判别新的对象是否为该用户所喜欢。收集数据。关于此用户的数据存放在某个文本文件中。准备数据。收集的数据主要包括以下三个特征：（1）每年获得的飞行里程数；（2）玩视频游戏所耗的时间百分比；（3）...

2018-08-21 20:39:00 411

转载机器学习：kNN算法（一）—— 原理与代码实现（不调用库）

一理论基础\(k\)近邻法是一种基本地分类与回归算法，属于判别模型。没有学习策略，不具备显式学习过程。本文主要讨论分类问题。原理：给定一个训练数据集，对于新的输入实例，在训练数据集中找到与该实例最邻近的\(k\)个点，这\(k\)个点的多数属于某个类，就把输入实例归为这个类。三个基本要素：\(k\)值得选择，距离度量以及分类决策规则1.超参数k：选择较小的k值，对噪声比较敏感...

2018-08-21 18:45:00 995

a16111597162163的博客