机器学习
SJian666
这个作者很懒,什么都没留下…
展开
-
机器学习实战笔记:决策树(Decision Tree)
PS该部分内容所设计到的程序源码已经存在我的github上,地址奉上:https://github.com/AdventureSJ/ML-Notes/tree/master/DecisionTree欢迎各位大佬批评指正,也欢迎各位好友fock or star!Thank You!概述在前面所述的k-近邻算法可以完成很多分类任务,但是他最大的缺点就是无法给出数据的内部含...原创 2019-04-04 16:10:02 · 1077 阅读 · 0 评论 -
机器学习实战笔记:朴素贝叶斯分类
前言在之前我们讲述knn以及决策树时。曾要求分类器做出决策给出“该实例属于哪一类”这类问题的明确答案。不过分类器有时候会产生错误的结果,这个时候要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。之前决策树章节里信息熵的计算就涉及到了一些概率知识,接下来我们将在这个基础上深入讨论。本章会给出一些使用概率论进行分类的方法。首先从一个最简单的概率分类器开始,然后给出一些假...原创 2019-04-10 21:18:29 · 1224 阅读 · 0 评论 -
机器学习实战笔记:k-means和k-NN (一)
监督学习和无监督学习对于很多和我一样的朋友们,作为一个机器学习的初学者,在刚开始接触这两个算法的时候,总是弄不清楚这两者的区别。因此,今天特意专门写一篇文章来阐述这两个算法的原理以及实践,在巩固自己学习知识的同时,能让更多的初学者能够理解这两个算法。首先我们要理解什么是监督学习和无监督学习。监督学习就是最常见的分类问题(注意和聚类区分),通过已有的训练样本(即已知数据机器对应的输出)去训练...原创 2019-04-02 14:44:12 · 924 阅读 · 0 评论 -
机器学习实战笔记:树回归-CART算法
前言在上一章中我们使用了ID3算法来构造树。ID3的做法是每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来切分。也就是说,如果一个特征有4种取值,那么数据将被切成4份。一旦按某特征切分后,该特征在之后的算法执行过程中将不会再起作用,所以有观点认为这种切分方式过于迅速。另外一种方法是二元切分法,即每次把数据集切成两份。如果数据的某特征值等于切分所要求的值,那么这些数据就进人树...原创 2019-04-08 17:20:36 · 1908 阅读 · 2 评论 -
机器学习实战笔记:Logistic回归
概述在这一部分内容中,我们将首次接触最优化算法。其实我们在日常生活中也会经常发现最优化问题,比如如何在最短时间内从A点到达B点?如何投入最少的时间获得最大的效益等等。可见,求解最优化问题将会是我们遇见的很多问题都变得简洁,下面我们将介绍几个最优化算法,并利用他们训练拿出一个非线性函数用于分类。假如二维平面内有一些数据点,现在我们需要用一条直线来对这些点进行拟合,这种不断的求取最佳...原创 2019-04-15 19:09:39 · 258 阅读 · 0 评论 -
机器学习实战笔记:K-means和K-近邻 (二)
k-近邻算法概述简单的说,k-近邻算法采用测量不同特征值之间的距离方法进行分类,其工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数...原创 2019-04-03 14:53:57 · 464 阅读 · 0 评论 -
机器学习实战笔记:深入理解SVM之线性支持向量机
写在前面说实话,真的要全部理解SVM真的挺难的,作为一个正在入门中的小白,表示真的花了不少时间来弄懂每一个公式,其中滋味不言而喻。但是与之而来的则是推出每一个公式后的成就感,或许这也是让我和看到这篇文章的你能够坚持下去的动力吧!本篇文章的所有理论均来自于各个博客的大佬,在这里我尽量用最通俗的话来解释SVM的理论基础知识并附上相关博客链接,篇幅可能较长,还希望能够静心看下去,若是有哪些地...原创 2019-04-16 20:21:07 · 480 阅读 · 0 评论 -
机器学习实战笔记:深入理解SVM之非线性支持向量机以及SMO算法
前述在前面我们介绍了线性情况下的支持向量机,它是通过寻找一个线性的超平面来达到对数据进行分类的目的。只是,由于是线性方法,所以对非线性的数据就没有办法处理了。非线性支持向量机比如图中的两类数据,分别分布为两个圆圈的形状,因为数据本身就是线性不可分的,所以不论是什么高级的分类器,仅仅要它是线性的,就没法处理,SVM 也不行。我们可以看到该数据集就是用两个半径不同的圆圈加...原创 2019-04-18 21:31:05 · 895 阅读 · 0 评论 -
机器学习实战笔记:AdaBoost
AdaBoost概述AdaBoost是典型的Boosting算法,属于Boosting家族的一员。在说AdaBoost之前,先说说Boosting提升算法。Boosting算法基于这样一种思想:如果有一个复杂的问题,如果将多个专家的判断进行适当的综合可能要比某一个单独的专家独自判断的结果要好,实际上就是“三个臭皮匠顶个诸葛亮”的道理。将这个思想应用于机器学习领域,如果有一个问题,存...原创 2019-04-25 16:51:08 · 560 阅读 · 0 评论