- 博客(9)
- 资源 (4)
- 收藏
- 关注
原创 机器学习笔记之十二——SVM原理及推导
svm(support vector machine)是一种二分类算法,它的目标在于寻找一个能将两种点分离的直线或平面或超平面。 如图(来自wiki): 图中的红线将两边数据点分开,这条线就是分割直线,同样的,在三维坐标轴中,将两边数据点分开的平面,称为分割平面;更高维的空间坐标轴,统称为分割超平面。 对于svm来说,找到这个分割超平面的准则或者是思路:使离分割平面较近的点(这种点被...
2018-12-24 13:49:49 612
原创 机器学习笔记之十一——集成学习之Boosting及AdaBoosting
上一篇记述了Bagging的思维与应用 : https://blog.csdn.net/qq_35946969/article/details/85045432 本篇记录Boosting的思想与应用:AdaBoosting、GDBT(梯度提升树) Boosting 概念:提升学习(Boosting)每一步产生一个弱预测模型(如决策树),而后面每一次产生的弱预测...
2018-12-17 13:45:17 448
原创 机器学习笔记之十——集成学习之Bagging
上一节学习了决策树:https://blog.csdn.net/qq_35946969/article/details/85039097 最后说到提升决策树的性能,集成就是非常强大的解决方案。 借助一个图,直观的了解集成学习: Bagging Bagging是集成个体学习器的一种方式,它的思想十分简单: a.对原始样本进行有放回采样,得到一个样本子集,用这个样本子集...
2018-12-17 13:14:45 290
原创 机器学习笔记之九——决策树原理以及举例计算
决策树是机器学习最基本的算法之一,它本身作为一颗树而言,十分简单。 就是将特征属性放在结点的未知,按照特征属性将样本分类,放在左子树和右子树。 而在左子树和右子树,继续使用其他的特征属性作为结点,向下分类。 学习决策树复杂的部分在于,如何最优的选择特征属性作为结点,以及生成决策树后的优化策略。 下面就进入第一个问题,如何最优的选择特征属性作为结点,下面引入的的信息熵、条...
2018-12-17 10:26:01 791
原创 机器学习笔记之八—— knn-最简单的机器学习算法以及KD树原理
上一节结束了线性回归、逻辑回归,今天一节来介绍机器学习中最简单的算法: K近邻(KNN,全称K-nearst Neighbor) 概述:判断一个样本的label只需要判断该样本周围其他样本的label。简言之,朋友选啥我选啥。 具体实现? 对于特征为X(X可以是多个),样本为y的训练集,当我们需要预测的时候,直接将需要预测的目标样本yi拿过...
2018-12-16 18:01:01 265
原创 机器学习笔记之七——逻辑回归简单推导、softmax简单理解以及sklearn中逻辑回归常用参数解释
逻辑回归 对逻辑回归的理解:对线性回归的假设函数的 f(x) 又套上了一层sigmoid函数,即g(f(x)). 然后sigmoid函数是长这样的: 它的图像长这样: 对于线性回归得到的结果,再经过一层sigmoid函数,以x=0为界限,左边为0,右边为1,逻辑回归就是这样一个二分类的算法。 那我们再从数学的角度去看一下它的推导过程,在此之前,要知道sigmoid的导函数很特殊,长这样的...
2018-12-11 10:54:52 1950 1
原创 机器学习笔记之六——梯度下降推导之BGD、SGD、MBGD
BGD(批梯度下降,又称全量梯度下降)为标准梯度下降套路,但是速度慢,每一次更新参数Θ都需要遍历所有样本。 SGD(随机梯度下降)求速度,每一次更新参数Θ只去遍历一个样本。 MBGD(小批量梯度下降)取两者中庸,每次更新Θ,取一部分样本来遍历。 具体解释如下: 值得一提的是,加入正则项后,因为L1正则项包含绝对值,不可导,所以不能使用梯度下降法,但是可以使用近端梯度下降法...
2018-12-11 10:41:48 1447
原创 机器学习笔记之五——目标函数、经验风险与结构风险、正则项
一、常见的目标函数(loss/cost function) 二、经验风险与结构风险 经验风险 L(f) 就是以上损失函数,描述的是模型与训练数据的契合程度。 结构风险Ω(f)对应于过拟合问题,用正则项解决过拟合是结构风险的课题。 三、正则项 正则项原本有两种,L1正则项与L2正则项,后面还出现了L1和L2的中庸形态——Elasitc Net。 首先,L1正...
2018-12-11 10:33:24 647
原创 机器学习笔记之四——线性回归原理以及推导
一元线性回归: 对于样本[(x1,y1),(x2,y2),……(xn,yn)],xi为特征,yi为标签。(字幕i代表下标) 假定y与x有: y = f(xi) = w*xi + b 确定参数w和b的值的关键在于如何衡量f(x)与y之间的差距,即 ** 基于均方误差最小化来进行模型求解的方法成...
2018-12-11 10:20:48 314
xiaoshuo_03_6-6.zip
2019-06-11
sparkstreaming2.3_kafka0.8_jar包集合
2018-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人