2018年12月_JAVA技术分享官-乐乐

12月 11月 10月 09月 08月 07月 05月 04月

原创机器学习笔记之十二——SVM原理及推导

svm（support vector machine）是一种二分类算法，它的目标在于寻找一个能将两种点分离的直线或平面或超平面。如图（来自wiki）：图中的红线将两边数据点分开，这条线就是分割直线，同样的，在三维坐标轴中，将两边数据点分开的平面，称为分割平面；更高维的空间坐标轴，统称为分割超平面。对于svm来说，找到这个分割超平面的准则或者是思路：使离分割平面较近的点（这种点被...

2018-12-24 13:49:49 612

原创机器学习笔记之十一——集成学习之Boosting及AdaBoosting

上一篇记述了Bagging的思维与应用： https://blog.csdn.net/qq_35946969/article/details/85045432 本篇记录Boosting的思想与应用：AdaBoosting、GDBT（梯度提升树） Boosting 概念：提升学习（Boosting）每一步产生一个弱预测模型（如决策树），而后面每一次产生的弱预测...

2018-12-17 13:45:17 448

原创机器学习笔记之十——集成学习之Bagging

上一节学习了决策树：https://blog.csdn.net/qq_35946969/article/details/85039097 最后说到提升决策树的性能，集成就是非常强大的解决方案。借助一个图，直观的了解集成学习： Bagging Bagging是集成个体学习器的一种方式，它的思想十分简单： a.对原始样本进行有放回采样，得到一个样本子集，用这个样本子集...

2018-12-17 13:14:45 290

原创机器学习笔记之九——决策树原理以及举例计算

决策树是机器学习最基本的算法之一，它本身作为一颗树而言，十分简单。就是将特征属性放在结点的未知，按照特征属性将样本分类，放在左子树和右子树。而在左子树和右子树，继续使用其他的特征属性作为结点，向下分类。学习决策树复杂的部分在于，如何最优的选择特征属性作为结点，以及生成决策树后的优化策略。下面就进入第一个问题，如何最优的选择特征属性作为结点，下面引入的的信息熵、条...

2018-12-17 10:26:01 791

原创机器学习笔记之八—— knn-最简单的机器学习算法以及KD树原理

上一节结束了线性回归、逻辑回归，今天一节来介绍机器学习中最简单的算法： K近邻（KNN，全称K-nearst Neighbor）概述：判断一个样本的label只需要判断该样本周围其他样本的label。简言之，朋友选啥我选啥。具体实现？对于特征为X（X可以是多个），样本为y的训练集，当我们需要预测的时候，直接将需要预测的目标样本yi拿过...

2018-12-16 18:01:01 265

原创机器学习笔记之七——逻辑回归简单推导、softmax简单理解以及sklearn中逻辑回归常用参数解释

逻辑回归对逻辑回归的理解：对线性回归的假设函数的 f(x) 又套上了一层sigmoid函数，即g(f(x)). 然后sigmoid函数是长这样的：它的图像长这样：对于线性回归得到的结果，再经过一层sigmoid函数，以x=0为界限，左边为0，右边为1，逻辑回归就是这样一个二分类的算法。那我们再从数学的角度去看一下它的推导过程，在此之前，要知道sigmoid的导函数很特殊，长这样的...

2018-12-11 10:54:52 1950 1

原创机器学习笔记之六——梯度下降推导之BGD、SGD、MBGD

BGD（批梯度下降，又称全量梯度下降）为标准梯度下降套路，但是速度慢，每一次更新参数Θ都需要遍历所有样本。 SGD（随机梯度下降）求速度，每一次更新参数Θ只去遍历一个样本。 MBGD（小批量梯度下降）取两者中庸，每次更新Θ，取一部分样本来遍历。具体解释如下：值得一提的是，加入正则项后，因为L1正则项包含绝对值，不可导，所以不能使用梯度下降法，但是可以使用近端梯度下降法...

2018-12-11 10:41:48 1447

原创机器学习笔记之五——目标函数、经验风险与结构风险、正则项

一、常见的目标函数（loss/cost function）二、经验风险与结构风险经验风险 L(f) 就是以上损失函数，描述的是模型与训练数据的契合程度。结构风险Ω(f)对应于过拟合问题，用正则项解决过拟合是结构风险的课题。三、正则项正则项原本有两种，L1正则项与L2正则项，后面还出现了L1和L2的中庸形态——Elasitc Net。首先，L1正...

2018-12-11 10:33:24 647