老James-CSDN博客

原创 SMO算法详解

SMO要解决的问题是什么？经过漫长的探索，我们建立了SVM模型，但是这个模型中还剩下一个未知参数需要求解，SMO就是求解这个参数的一种高效的方法。我们需要解决的终极问题是：max⁡α∑i=1nαi−12∑i=1n∑j=1nαiαjyiyj⟨xiTxj⟩\max \limits_{α}∑^n_{i=1}α_i−\dfrac{1}{2}∑^n_{i=1}∑^n_{j=1}α_iα_jy_iy_j...

2019-10-17 00:11:39 3480 6

原创随机森林算法梳理

1. 集成学习概念集成学习，顾名思义，通过将多个单个学习器集成/组合在一起，使它们共同完成学习任务，有时也被称为“多分类器系统（multi-classifier system）”、基于委员会的学习（Committee-based learning）。这里的【学习器】就是指机器学习算法训练得到的假设。而我们之所以有直觉要把多个学习器组合在一起，...

2019-04-04 16:30:22 330

原创决策树算法梳理

1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）信息熵：信息熵是度量样本集合纯度常用的一种指标。联合熵：联合熵就是度量一个联合分布的随机系统的不确定度。条件熵：在得知某一确定信息的基础上获取另外一个信息时所获得的信息量。信息增益：信息增益代表使用属性a带来的纯度提升，信息增益越大，带来的纯度提升越大。计算公式就是父节点的信息熵减去所有子节点的信息熵。基尼不纯度：从一个数据集中...

2019-04-03 21:05:15 191

原创线性回归算法梳理

1. 机器学习的一些概念有监督学习有监督学习的任务是学习一个模型，使模型能够对任意的输入，对其相应的输出做出一个好的预测。无监督学习输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只...

2019-04-01 23:28:21 201

原创逻辑回归算法梳理

1. 逻辑回归与线性回归的联系与区别其实并没有本质上的区别，就是逻辑回归多了一个Sigmoid函数，使样本能映射到[0,1]之间的数值，用来做分类问题。简单的例子就是可以使用吴恩达的课程中的例子来解释，线性回归用来预测房价，能找到一个公式来尽量拟合房价和影响房价因素之间的关系，最后得到的公式能准确的用来预测房价。在对参数不断调优以找到一组最拟合数据的参数来构成一个最好的模型，就是线性回归。逻辑...

2019-04-01 21:00:42 535

原创 DataWhale Python Day4

1.函数关键字Python 定义函数使用 def 关键字，一般格式如下：def 函数名（参数列表）: 函数体>>>def hello() : print("Hello World!") >>> hello()Hello World!>>>2. 函数的定义你可以定义一个由自己想要功能的函数，以下是简...

2019-03-04 21:29:01 96

原创 DataWhale Python Day3

1.dic字典a.定义字典是另一种可变容器模型，且可存储任意类型对象。b.创建可如此创建字典dict1 = { 'abc': 456 };dict2 = { 'abc': 123, 98.6: 37 };c.字典的方法len(dict)计算字典元素个数，即键的总数。str(dict)输出字典，以可打印的字符串表示。type(variable)返回输入的变量类型，如果变量...

2019-03-03 21:46:02 129

原创 DataWhale Python Day2

1.列表a.标志列表的标志为[ ]b.基本操作append()追加内容pop()返回指定的元素del()删除指定的元素copy()复制列表#!/usr/bin/python3list1 = ['Google', 'Runoob', 'Taobao', 'Baidu']list2 = list1.copy()print ("list2 列表: ", list2)c.列表相...

2019-03-01 21:03:40 117

原创 DataWhale Python Day1

1.环境搭建anaconda环境配置解释器2.python初体验print and input用print()在括号中加上字符串，就可以向屏幕上输出指定的文字。比如输出'hello, world'，用代码实现如下：&amp;gt;&amp;gt;&amp;gt; print('hello, world')函数也可以接受多个字符串，用逗号“,”隔开，就可以连成一串输出：&amp;gt;&

2019-02-27 21:34:06 111

转载线性回归、卡方分布、方差分析

线性回归https://www.cnblogs.com/nxld/p/6123239.html卡方分布https://blog.csdn.net/snowdroptulip/article/details/78770088

2019-02-01 21:29:25 561

原创统计学习笔记3

1、什么是假设检验假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。2、怎么进行假设检验？确定要进行检验的假设原假设（Null Hypothesis） H0H0 ：要检验的判断备择假设 H1H1选择检验统计量就是确定分布类型，得出统计量n, p, μμ, σσ等确定用于做决策的拒绝域先确定显著性水平是百分之几再看这是单尾检验（左尾：<；右尾：&...

2019-01-30 17:45:13 234

原创可汗统计学习笔记2

1、中心极限定理 (Central Limit Theorem)1）中心极限定理随着样本容量(Sample size) n趋于无穷，样本均值(Sampling Distribution of the Sample Mean)越接近正态分布样本均值的标准差(Standard Error of the Mean) 变小：偏度(Skew)更接近于0，峰度(Kurtosis)也更接近于0大数定律...

2019-01-28 21:37:55 353

原创可汗统计学习笔记

12.样本和总体sample样本，population总体，mean均值总体是一个概念，一般来说总体是不可以全部测量的，所以我们只取一部分来测量这就是样本。例如：我们不可能测量所有人的身高，但是我们可以在所有人中取一部分来测量这部分人的平均身高，这就是样本均值。总体的平均就是总体均值。简单说：总体均值就是总体数的平均，样本均值就是样本数的平均。13.总体方差总体方差是为了查看样本与均值...

2019-01-27 20:27:54 364

sanpang2288的博客