决策树算法原理(上)

此文参考了http://www.cnblogs.com/pinard/p/6050306.html 以及周志华老师的《机器学习》 决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结,上...

2017-02-27 22:54:32

阅读数 1610

评论数 0

SVM支持向量机高斯核调参小结

转自http://www.cnblogs.com/pinard/p/6117515.html  在支持向量机(以下简称SVM)的核函数中,高斯核(以下简称RBF)是最常用的,从理论上讲, RBF一定不比线性核函数差,但是在实际应用中,却面临着几个重要的超参数的调优问题。如果调的不好,可能比线...

2017-02-18 17:48:08

阅读数 19979

评论数 2

scikit-learn SVM支持向量机算法库使用小结

之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结,本文从实践的角度对scikit-learn SVM算法库的使用做一个小结。scikit-learn SVM算法库封装了libsvm 和 liblinear 的实现,仅仅重写了算法了接口部分。 1. scikit-learn SV...

2017-02-18 17:09:31

阅读数 1119

评论数 0

SVM支持向量机原理(四)SMO算法原理

转自http://www.cnblogs.com/pinard/p/6111471.html 在SVM的前三篇里,我们优化的目标函数最终都是一个关于α α向量的函数。而怎么极小化这个函数,求出对应的α α向量,进而求出分离超平面我们没有讲。本篇就对优化这个关于α α向量的函数的SMO...

2017-02-18 16:48:25

阅读数 560

评论数 0

SVM支持向量机原理(三)线性不可分支持向量机与核函数

转自http://www.cnblogs.com/pinard/p/6103615.html 在前面两篇我们讲到了线性可分SVM的硬间隔最大化和软间隔最大化的算法,它们对线性可分的数据有很好的处理,但是对完全线性不可分的数据没有办法。本文我们就来探讨SVM如何处理线性不可分的数据,重点讲述核函数在...

2017-02-18 16:35:18

阅读数 1178

评论数 0

SVM支持向量机原理(二) 线性支持向量机的软间隔最大化模型

在支持向量机原理(一) 线性支持向量机中,我们对线性可分SVM的模型和损失函数优化做了总结。最后我们提到了有时候不能线性可分的原因是线性数据集里面多了少量的异常点,由于这些异常点导致了数据集不能线性可分,本篇就对线性支持向量机如何处理这些异常点的原理方法做一个总结。 1. 线性分类SVM面临的问...

2017-02-18 15:39:44

阅读数 1642

评论数 0

SVM支持向量机原理(一) 线性支持向量机

此篇文章并非完全原创,参考了下篇博客,如果大家觉得稳重的1、2、3部分不好理解,可以看下图中我的手写版。 http://www.cnblogs.com/pinard/p/6097604.html 支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多...

2017-02-18 13:24:55

阅读数 1697

评论数 0

【集成学习】原理小结

原文:http://www.cnblogs.com/pinard/p/6131423.html 集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成...

2017-02-08 14:33:00

阅读数 602

评论数 0

【集成学习】scikit-learn随机森林调参小结

原文:http://www.cnblogs.com/pinard/p/6160412.html 在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结。本文就从实践的角度对RF做一个总结。重点讲述scikit-learn中RF的调...

2017-01-19 17:34:54

阅读数 18733

评论数 1

【集成学习】Bagging与随机森林算法原理小结

原文地址: http://www.cnblogs.com/pinard/p/6156009.html 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以...

2017-01-19 15:20:07

阅读数 4815

评论数 0

【集成学习】scikit-learn Adaboost类库使用小结

转自http://www.cnblogs.com/pinard/p/6136914.html 在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结。这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事...

2017-01-09 16:11:09

阅读数 9820

评论数 2

精确率(准确率、查准率、precision)、召回率(查全率、recall)、RoC曲线、AUC面积、PR曲线

1. TP, FP, TN, FN True Positives,TP:预测为正样本,实际也为正样本的特征数False Positives,FP:预测为正样本,实际为负样本的特征数True Negatives,TN:预测为负样本,实际也为负样本的特征数False Negatives,FN:预...

2017-01-03 22:45:01

阅读数 10872

评论数 0

sklearn逻辑回归(Logistic Regression,LR)类库使用小结

原文出处:http://www.07net01.com/2016/11/1706402.html,在原文的基础上做了一些修订 sklearn中LogisticRegression的API如下,官方文档:http://scikit-learn.org/stable/modules/generated...

2016-12-22 11:36:02

阅读数 44508

评论数 1

线性收敛的随机优化算法之 SAG、SVRG(随机梯度下降)

原文出处:https://zhuanlan.zhihu.com/p/22402784?utm_source=tuicool&utm_medium=referral 这篇文章回顾了基于梯度的随机优化算法在这几年的重要发展 -- SAG、SVRG。 很多常见的机器学习模型的目标(比如最小二乘...

2016-12-22 11:20:12

阅读数 9783

评论数 0

Python手撸逻辑回归(logistic regression)

与线性回归用于预测连续值不同,逻辑归回用于分类,原理与线性回归类似,定义损失函数,然后最小化损失,得到参数既模型,只不过损失的定义不同。 逻辑回归的假设如图1所示,可以理解为线性回归外面套了一层sigmoid函数g(z),sigmoid函数图像如图2所示,该函数有很好的数学性质,其导数= g(z...

2016-12-21 17:55:06

阅读数 3733

评论数 0

python手撸线性回归(二)theta0不需要正则化

在上一篇关于线性回归的文章中,python手撸线性回归及参数解释,我们可以看到正则化项中并没有theta0二是从theta1开始的,In[7]的第三行 Andrew在其机器学习中对此的解释是,按照惯例来讲,不去对θ0进行惩罚, 因此 θ0 的值是大的 这就是一个约定, 但其实在实践中这只会...

2016-12-20 11:14:38

阅读数 1515

评论数 0

python手撸线性回归及参数解释

线性回归,简单的理解,在二维空间中,找到一条直线去尽可能的拟合样本数据,给出新的样本x,可以预测其y值,y是连续值,分类是离散值,如图1所示;如果是高维空间,那就是找到一个超平面去拟合,当然也可以是曲线;为了方便理解,以二维空间的直线为例,所谓找到最好的直线,就是找参数a和b,也就是theta[0...

2016-12-14 11:57:12

阅读数 8142

评论数 0

人工神经网络

人工神经网络 二分类问题,输出层使用softmax函数,所以输出层有两个神经元,output1表示样本属于类1的概率,output2表示样本属于类2的概率;输入的每个样本有两个特征,所以输入层有两个神经元,隐藏层假设有500个神经元,因为是全连接,所以W1(输入层与隐藏层间的权重)是2*500维矩...

2016-12-13 14:52:58

阅读数 1130

评论数 0

python数据可视化(matplotlib,pandas绘图,直方图,散点图,柱状图,折线图,箱线图)

原址:http://datacademy.io/lesson/63 增加了一些注释 数据可视化对于数据描述以及探索性分析至关重,恰当的统计图表可以更有效的传递数据信息。在 Python 中已经有很多数据可视化方面的第三方程序包,例如: matplotlibChacoPyXBokeh 本节,...

2016-10-09 15:58:02

阅读数 53540

评论数 2

Python Jupyter Notebook 中的错误异常与代码调试

Python Jupyter Notebook 中的错误异常与代码调试 - Datacademy 数析学院 | Datartisan http://datacademy.io/lesson/65 Python Jupyter Notebook 中的错误异常与代码调试 ...

2016-10-08 14:57:48

阅读数 20386

评论数 2

提示
确定要删除当前文章?
取消 删除
关闭
关闭