![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
二当家的掌柜
这个作者很懒,什么都没留下…
展开
-
SVM基本概要与sklearn.svm.svc 参数说明
SVM的基本概念先介绍一些简单的基本概念:分隔超平面:将数据集分割开来的直线叫做分隔超平面。超平面:如果数据集是N维的,那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面,也就是分类的决策边界。间隔:一个点到分割面的距离,称为点相对于分割面的距离。数据集中所有的点到分割面的最小间隔的2倍,称为分类器或数据集的间隔。最大间隔:SVM分类器是要找最大的数据集间隔。支持向量:坐落在数据边际的两边原创 2017-07-12 13:28:53 · 82121 阅读 · 4 评论 -
LibSVM学习详细说明
代码文件主要针对Matlab进行说明,但个人仍觉得讲解的支持向量机内容非常棒,可以做为理解这一统计方法的辅助资料; LibSVM是台湾林智仁(Chih-Jen Lin)教授2001年开发的一套支持向量机的库,这套库运算速度还是挺快的,可以很方便的对数据做分类或回归。由于libSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。这套库可以从ht转载 2017-06-23 15:26:37 · 2406 阅读 · 0 评论 -
MAC 上安装LibSVM的python接口
1、下载LibSVM,点击即为下载链接。 我选择的是zip文件。2、将libsvm压缩包解压,然后放在一个特定路径中。然后打开mac终端,进入libsvm的目录,类似”cd /Users/ppj/libsvm-3.22”,执行“make lib”命令,如下图: 3、将执行的libsvm.so.2 复制到/usr/local/lib文件夹下。这个/usr/local/lib文件夹,可能有些小伙原创 2017-06-23 21:45:02 · 1796 阅读 · 0 评论 -
Adaboost的原理、推导与实例
本文结合机器学习班决策树与Adaboost 的PPT,跟邹讲Adaboost指数损失函数推导的PPT(第85~第98页)、以及李航的《统计学习方法》等参考资料写。##原理部分基本参考[大神博客](http://blog.csdn.net/v_july_v/article/details/40718799)关于代码实例,我给出了优达学城的简单案例和sklearn 调用的参数选择说明。1 Adabo原创 2017-07-17 14:46:46 · 1024 阅读 · 0 评论 -
机器学习自学之路-决策树 算法选择:三种算法优缺点比较(ID3、C4.5、CART)
ID3D3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式,不确定度越大或者说越混乱,熵就越大。在建立决策树的过程中,根据特征属性划分数据,使得原本“混乱”的数据的熵(混乱度)减少,按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据(贪心),也就是“最大信息熵增益”原则。同时这是最早提出的一种决原创 2017-08-01 16:55:23 · 19146 阅读 · 1 评论 -
K-means和K-means++的算法原理及sklearn库中参数解释、选择
前言: 这篇博文主要介绍k-means聚类算法的基本原理以及它的改进算法k-means的原理及实现步骤,同时文章给出了sklearn机器学习库中对k-means函数的使用解释和参数选择。K-means介绍: K-means算法是很典型的基于距离的聚类算法,采用距离 作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最原创 2017-08-08 16:48:32 · 57527 阅读 · 8 评论 -
Spark-机器学习模型持久化
在即将发布的Apache Spark 2.0中将会提供机器学习模型持久化能力。机器学习模型持久化(机器学习模型的保存和加载)使得以下三类机器学习场景变得容易:数据科学家开发ML模型并移交给工程师团队在生产环境中发布;数据工程师把一个Python语言开发的机器学习模型训练工作流集成到一个Java语言开发的机器学习服务工作流;数据科学家创建多个训练ML模型的作业,稍后需要保存和评估。Spark M转载 2017-08-26 12:25:29 · 8786 阅读 · 1 评论