数据挖掘算法分析
文章平均质量分 90
yang1young
个人Github主页: https://github.com/yang1young
可能会有你感兴趣的哦 :)
展开
-
Andrew Ng机器学习笔记+Weka相关算法实现(五)SVM最优间隔和核方法
这一章主要讲解Ng的机器学习中SVM的后续内容,主要包括最优间隔分类器求解,核方法。最优间隔分类器的求解利用以一篇讲过的的原始对偶问题求解的思路,我们可以将类似思路运用到SVM的求解上来。具体的分析如下: 对于SVM求解的问题: 我们把约束条件稍微变形一下: 只有函数间隔是1的点才能使上式取等号,也就是有意义的,如下图: 叉叉和圈圈分别代表正反例,可以看出,只有落在边缘的点的原创 2016-03-29 13:45:43 · 2546 阅读 · 0 评论 -
LASSO和L1正则包liblinear,glmnet使用和对比
LASSO算法有很多包,今天我就两个常用包liblinear和glmnet做一下分析,并给出我做分类的例子。liblinearLIBLINEAR是一个简单的求解大规模规则化线性分类和回归的软件包。 Liblinear是国立台湾大学的Chih-Jen Lin博士开发的,主要应对large-scale的data classification。liblinear包提供的算法包括: 我们要使用的la原创 2016-11-03 14:47:59 · 9523 阅读 · 5 评论 -
机器学习防止过拟合之L1范数(正则)与LASSO
机器学习过拟合问题对于机器学习问题,我们最常遇到的一个问题便是过拟合。在对已知的数据集合进行学习的时候,我们选择适应度最好的模型最为最终的结果。虽然我们选择的模型能够很好的解释训练数据集合,但却不一定能够很好的解释测试数据或者其他数据,也就是说这个模型过于精细的刻画了训练数据,对于测试数据或者其他新的数据泛化能力不强。 以一个简单的多项式拟合为例: 图一只捕捉了数据的简单特征,处于欠拟合状态原创 2016-11-03 13:56:42 · 9896 阅读 · 0 评论 -
Andrew Ng机器学习笔记+Weka相关算法实现(四)SVM和原始对偶问题
这篇博客主要讲解了Ng的课第六、七个视频,涉及到的内容包括,函数间隔和几何间隔、最优间隔分类器 ( Optimal Margin Classifier)、原始/对偶问题 ( Primal/Dual Problem)、 SVM 的对偶问题几个部分。函数间隔和几何间隔函数间隔( functional margin) 与几何间隔( geometric margin)是理解SVM的基础和前提。 假设原创 2016-03-29 12:02:20 · 1447 阅读 · 0 评论 -
Andrew Ng机器学习笔记+Weka相关算法实现(二)生成学习/朴素贝叶斯
这篇博客主要涉及到Ng的课第二个讲义,包括生成学习算法 (generate learning algorithm)、高斯判别分析( Gaussian Discriminant Analysis,GDA)、朴素贝叶斯( Navie Bayes)、拉普拉斯平滑( Laplace Smoothing)。生成学习算法首先要清楚什么是生成学习。之前讲的方法如回归等方法都属于判别学习,也就是直接对问题求解原创 2016-03-15 17:08:27 · 2936 阅读 · 0 评论 -
Andrew Ng机器学习笔记(三)(拓展)深度学习与受限玻尔兹曼机
深度学习,神经网络和受限玻尔兹曼机原创 2016-03-19 20:46:23 · 11340 阅读 · 2 评论 -
Andrew Ng机器学习笔记+Weka相关算法实现(一)梯度下降与回归方法
最近在看Andrew Ng的机器学习课程,将学到的东西在此做个总结,包括梯度下降、随机梯度下降、最小二乘法、局部加权回归、极大似然原理、logistic regression、牛顿方法、广义线性模型、指数分布族原创 2016-03-14 16:05:15 · 2450 阅读 · 0 评论 -
Andrew Ng机器学习笔记+Weka相关算法实现(三)神经网络和参数含义
神经网络的概念和基本推导,Weka中实现神经网络和参数的基本含义原创 2016-03-19 13:57:14 · 10030 阅读 · 0 评论 -
Andrew Ng机器学习笔记+Weka相关算法实现(六)SMO/LibSVM/SVM参数
SMO算法,坐标上升法,LibSVM,Weka中的SMO和MultiClassClassifier分类器的使用,SVM参数含义,SVM参数寻优技巧,SVM使用注意事项原创 2016-03-29 15:28:26 · 9374 阅读 · 5 评论 -
使用稀疏化(字典学习)工具spams做分类
spams简介SPAMS (SPArse Modeling Software)是一个为解决各种稀疏估计问题的开源优化工具箱,其主页为http://spams-devel.gforge.inria.fr/index.html 可以解决以下问题: ①Dictionary learning and matrix factorization (NMF, sparse PCA, …) 字典学习与矩阵原创 2016-11-03 15:40:09 · 5843 阅读 · 4 评论