![](https://img-blog.csdnimg.cn/20190803161559907.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
本专栏是是本人在学习机器学习中所见所学,希望每个阅读的大家都能够有所收获
Auraros
gdut一个正在艰苦转行的孩子
展开
-
机器学习(九):支持向量机SVM(超详细理论基础)
机器学习(九):支持向量机SVM一,前言从学习机器学习到现在,也实现了大大小小得多个算法了。下面便会对机器学习中较为出名的一种算法SVM进行原理阐述和理论推导。可能内容比较多,还需要慢慢查看。二,SVM是什么? SVM的英文全称是Support Vector Machines,我们叫它支持向量机。支持向量机是我们用于分类的一种算法。让我们以一个小故事的形式,开启我们的SVM之旅吧。 在很...原创 2019-08-04 22:01:35 · 4698 阅读 · 4 评论 -
机器学习(额外篇):bagging和boosting
机器学习(额外篇):bagging和boostingBaggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。1.Bagging:基于数据随机重抽样的分类器构建方法Bagging即套袋法,其算法过程如下:从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中...原创 2019-07-19 16:52:34 · 288 阅读 · 0 评论 -
机器学习(额外篇):监督学习和无监督学习的区别以及半监督学习
机器学习(额外篇):监督学习和无监督学习的区别前言 学了大部分机器学习算法,今天看到一个名词“监督”。突然发现自己好像不太了解监督学习和无监督学习的区别,于是查阅了部分资料,并且做了一定的总结。 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning)。分类和回归是前者的代表...原创 2019-07-19 15:53:54 · 2429 阅读 · 0 评论 -
机器学习(八):DBSCAN算法(基础篇)
机器学习(八):DBSCAN算法(基础篇) K-Means算法和 Mean Shift算法都是基于距离的聚类算法,基于距离的聚类算法的聚类结果是球状的簇,当数据集中的聚类结果是非球状结构时,基于距离的聚类算法的聚类效果并不好。与基于距离的聚类算法不同的是,基于密度的聚类算法可以发现任意形状的聚类。在基于密度的聚类算法中,通过在数据集中寻找被低密度区域分离的高密度区域,将分离出的高密度区域作...原创 2019-07-15 15:56:43 · 1372 阅读 · 0 评论 -
机器学习(七):AdaBoost算法(基础篇)
机器学习(七):AdaBoost算法(基础篇)小谈机器学习算法中有很多种分类器,它们各有各自的优缺点。那我们可不可以想一个办法,结合全部分类的优点,当然,这是不可能的。但是我们可以将这些不同的分类方法组合起来,而这种方法,前人已经用过。这种组合结果则被称为**集成方法(ensemble method)或者元算法(meta-algorithm)。**使用集成方法时会有多种形式:可以是不同算法的集...原创 2019-07-14 15:36:05 · 1051 阅读 · 0 评论 -
机器学习(六):Logistic回归(优化篇)
机器学习(六):Logistic回归(优化篇)在上一节的机器学习(六):Logistic回归(基础篇)写的代码所需要的时间复杂度太高。下面这篇文章将对算法进行一些改进,从而减少计算量,使其可以用在大数据集上。改进的随机梯度上升算法梯度上升算法在每次更新回归系数(最优参数)时,都需要遍历整个数据集。可以看一下我们之前写的梯度上升算法:def gradAscent(dataSet, label...原创 2019-07-14 09:37:28 · 2806 阅读 · 0 评论 -
机器学习(六):Logistic回归(基础篇)
机器学习(六):Logistic回归(基础篇)Logistic回归与梯度上升算法Logistic回归是众多分类算法的一员,与其他线性回归不一样,Logistic通常适用与分类。在日常生活中,Logistic回归用于二分类问题,例如:预测明天是否会下雨。它也可以用于多分类问题。让我们先了解一下什么是Ligistic回归1.Logistic回归说到回归,大家都会先想到线性回归。那什么是回归呢?...原创 2019-07-13 11:23:46 · 599 阅读 · 0 评论 -
机器学习(五):高斯朴素贝叶斯(基础篇)
机器学习(五):高斯朴素贝叶斯(基础篇)在高斯朴素贝叶斯中,每个特征都是连续的,并且都呈高斯分布。高斯分布又称为正态分布。图画出来以后像一个倒挂的钟,以均值为轴对称,如下图所示:GaussianNB 实现了运用于分类的高斯朴素贝叶斯算法。特征的可能性(即概率)假设为高斯分布:参数\large \sigma _{y}和\large \mu _{y}使用最大似然法估计。使用数据集:Iris...原创 2019-07-12 21:52:31 · 3746 阅读 · 2 评论 -
机器学习(五):朴素贝叶斯算法(非连续变量实战)
机器学习(五):朴素贝叶斯算法(非连续变量实战)在机器学习(五):朴素贝叶斯算法(非连续变量)中已经介绍了主要的代码,接下来,我们就用该代码来进行实战操作。实战:朴素贝叶斯之过滤垃圾邮件在上篇文章那个简单的例子中,我们引入了字符串列表。使用朴素贝叶斯解决一些现实生活中的问题时,需要先从文本内容得到字符串列表,然后生成词向量。下面这个例子中,我们将了解朴素贝叶斯的一个最著名的应用:电子邮件垃圾...原创 2019-07-12 16:17:12 · 1003 阅读 · 1 评论 -
机器学习(五):朴素贝叶斯算法(非连续变量)
机器学习(五):朴素贝叶斯算法(非连续变量)一,朴素贝叶斯算法 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最广泛的两种分类模型是决策树模型Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。 和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学...原创 2019-07-12 15:51:41 · 1867 阅读 · 0 评论 -
机器学习(五):贝叶斯分类器(基础篇)
机器学习(五):贝叶斯分类器(理论篇)朴素贝叶斯是概率论中的重中之重,在原理的理解上,花费了我很大的功夫。下面的内容有点晦涩难懂,大家要静的下心来好好研究。1. 贝叶斯决策论贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面我们...原创 2019-07-11 19:43:06 · 405 阅读 · 0 评论 -
机器学习(四):剪枝技术(基础篇)
机器学习(四):剪枝技术(基础篇)相关的决策树文章:机器学习(四)ID3决策树机器学习(四)C4.5决策树机器学习(四)CART分类树机器学习(四)CART回归树机器学习(四)决策树绘图到现在为止,已经完成回归树的构建,但是需要某种措施来检查构建过程是否恰当。这个技术就是剪枝技术。剪枝技术是决策树算法中十分重要的一部分,我们需要掌握剪枝的原理和代码。树剪枝一棵树如果结点过多,...原创 2019-07-10 17:12:50 · 4244 阅读 · 0 评论 -
机器学习(四):CART回归树(基础篇)
机器学习(四)CART回归树(基础篇)回归CART(Classification And Regression Trees)之前的文章,我们学习了ID3决策树,和C4.5决策树以及CART分类树进行分类。决策树不断将数据切分成小数据,直到所有目标标量完全相同,或者数据不能再切分为止。决策树是一种贪心算法,它要在一定情况下做出最佳的选择。1. ID3算法的弊端回忆一下,决策树的树构建算法是...原创 2019-07-10 16:17:25 · 2110 阅读 · 2 评论 -
机器学习(四):决策树绘画(基础篇)
在前面的章节中,我们已经学过了ID3树,C4.5树和CART树的构造。如果还没有了解过这三棵决策树的话可以点击下方链接:机器学习(四):ID3决策树(基础篇)机器学习(四):C4.5决策树(基础篇)机器学习(四):CART决策树(基础篇)下面我们来看看在前面所生成的决策树的模样。决策树的文字格式决策树没有绘图之前是由一个多重字典组成,如图:这是我们生成的决策树的文字格式,如今,...原创 2019-07-10 09:01:17 · 4620 阅读 · 0 评论 -
机器学习(四):CART分类树(基础篇)
机器学习(四):CART决策树(基础篇)大家都知道,著名的决策树有三种:ID3,C4.5,CART。前面两棵树只适用于分类,前面两个数的优点我们都知道了,那么问题来了,我们为什么要学习CART树呢?CART树又叫分类,回归树,顾名思义,它既可以做分类又可以做回归。是不是感觉很神奇?我们看看他的实现原理。CRAT树度量指标1.回归树纯度:回归方差其中,I为i可以取的值,xix_ixi表...原创 2019-07-09 09:58:36 · 6049 阅读 · 4 评论 -
机器学习(四):C4.5决策树(基础篇)
机器学习(四):C4.5决策树(基础篇)问题一:为什么要使用C4.5决策树?前面我们介绍了ID3决策树,ID3决策树有一个很大的缺点:信息增益反映了给定一个条件下以后不确定减少的程度,必然是分得越细的数据集确定性越高,也就是条件熵越小,信息增益越大。但是这样下来只能处理离散型属性,并且倾向于选择取值较多的属性。而C4.5采用的是信息增益率来作为分支的准则。很好的解决了这一缺点。在平时运用上,C...原创 2019-07-08 15:23:24 · 3019 阅读 · 5 评论 -
机器学习(四):ID3决策树(基础篇)
说到树,相信很多人都会想到二叉树,红黑树啊,都是一些让人头皮发麻的东西。那什么叫做决策树呢?——用来做决策的树?没错,决策树就是用来做决策的树,举个例子,比如:你去相亲,人家丈母娘会问你:你有房吗?如果你回答没有,那你就被pass了,如果你说有,她就会进一步的问你:你有车吗?你回答没有,也被pass了。像这样,一步一步做出选择,不同的选择有不同的结果,这样就叫做决策树。那我们来想想,既然要根据...原创 2019-07-08 10:11:19 · 2127 阅读 · 1 评论 -
机器学习(提前篇):pandas库(基础)
pandas库-学习笔记下面是我在学习pandas库的时候总结出的比较常用的几个函数,在这里做一下笔记以防忘记。1. Pandas读取外部数据读取函数函数作用pd.read_csv(filename)导入csv文档pd.read_table(filename)导入分割的文件文本(如TSV)pd.read_excel(filename)导入Excel文档...原创 2019-04-01 20:21:24 · 364 阅读 · 0 评论 -
机器学习(三):Apriori算法(实践篇)
机器学习(三):Apriori算法(实践篇)在前面已经很详细的介绍了Apriori算法,接下来是对Apriori算法进行实践。如果是第一次接触到Apriori算法,可以前去机器学习(三):Apriori算法(算法精讲)理解Apriori算法后再进行实践。实践基础内容:理解 Apriori 算法的思想。使用 Python 实现 Apriori 算法 。使用 UCI 上面的 mushroo...原创 2019-06-22 21:56:20 · 2751 阅读 · 0 评论 -
机器学习(三):Apriori算法(算法精讲)
机器学习(三):Apriori算法(算法精讲)上面图片就是Apriori算法的一部分流程,是不是看不太懂,当初看理解这个算法也花了不少时间,在这里我先介绍一下关联规则挖掘。Apriori算法——关联规则挖掘1)关联规则挖掘首先,关联规则挖掘的目的是找出事物之间存在的隐藏的关系,比如大家都知道的经典的案例啤酒和尿布的的故事,用我们人的思维来思考的话,男性在买尿布的时候会买几瓶啤酒,这二者并...原创 2019-06-22 21:23:25 · 2217 阅读 · 0 评论 -
机器学习(二):二分K-means算法(进阶篇)
机器学习(二):二分K-means算法在前一节的内容已经介绍了k-means算法的原理和代码实现,如果没有了解过K-means的同学建议先了解机器学习(二):k-means算法(基础篇)二分k-means是k-means算法的一种优化,二分k-means算法很好的解决了k-means算法的局部最优的问题。接下来我们来了解一下二分k-means的神奇之处二分k-means算法二分k-mean...原创 2019-06-22 19:59:45 · 6450 阅读 · 4 评论 -
机器学习(二):k-means算法(基础篇)
机器学习(二):k-means算法(基础篇)k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不...原创 2019-06-22 16:25:19 · 2702 阅读 · 0 评论 -
机器学习(额外篇):聚类算法和分类算法的区别
机器学习中有两类的大问题,一个是分类,一个是聚类。在生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,感觉两个没什么太大的区别。下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。分类算法1.分类算法的说法:分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。分类是根据一...原创 2019-06-22 10:54:30 · 11525 阅读 · 0 评论 -
机器学习(一):k-近邻算法(实践篇)
对于KNN算法,我分成了基础篇,进阶篇,实践篇。本篇是我们的实践篇,对于KNN原理没有过多的讲解,如果是刚接触到K-近邻算法的话,建议可以先从机器学习实战:K-近邻算法(基础篇)学习。欢迎大家学习愉快。实践基础内容:理解 KNN 算法的思想。使用 Python 实现 KNN 算法 。使用 UCI 上面的 Iris 数据集进行算法测试。记录测试结果实践进阶内容:自行优化 KNN...原创 2019-06-21 17:08:26 · 458 阅读 · 2 评论 -
机器学习(一):k-近邻算法(进阶篇)
机器学习实战(一):k-近邻算法(进阶篇)在上一期的学习中,已经了解了k-近邻算法的实质以及python代码的基本实现。接下来,我们将会通过另一项实例对kNN分类算法进行更深层次的掌握,其中会包含python绘图处理,python文件操作。在学习本期内容之前,建议你可以先去进行matplotlib库的学习,以达到事半功倍的效果。本期所有代码都放在本人的github中,收录在kNN_test0...原创 2019-02-21 19:44:12 · 558 阅读 · 1 评论 -
机器学习(一):k-近邻算法(基础篇)
机器学习实战(一):k-近邻算法(基础篇)机器学习是一门比较难懂的技术行域,在学习机器学习的过程中,要有足够的耐心。机器学习实战对Python掌握要求较高,建议如果是小白的同学,可以先去看懂Python基础再进行机器学习实战,会有事半功倍的效果。以下是我对学习机器学习实践的一些笔记和总结,希望对你有帮助。k-近邻算法是机器学习中的第一个分类算法,在明白他的实质前,我们先来看一个实例。一,动作...原创 2019-02-18 12:48:28 · 909 阅读 · 4 评论