机器学习实战
文章平均质量分 93
不论如何未来很美好
这个作者很懒,什么都没留下…
展开
-
数据挖掘十大算法(八):k-邻近算法(KNN)python和sklearn实现
《机器学习实战》,为了更深的理解经典的数据挖掘算法,我开始了这本书的学习。(我感觉这本书写的代码太复杂而且用了很多python的底层方法)我看了一个大概的思路,然后根据自己的理解(主要pandas数据结构处理数据特征)完成了书上的内容,花了多一点时间,可能整体逻辑没有它严谨,但我是比较容易理解,也能顺便练一下手的(所需数据在这本书下载的文件夹里)。下面开始正文。以及后面使用sklearn来实现KN...原创 2018-07-30 21:04:29 · 3018 阅读 · 0 评论 -
数据挖掘十大经典算法(包括各自优缺点 / 适用数据场景)
本文主要分析皆来自其他资料,借用较为权威的总结来对我已经学习的这些经典算法做一个极为精简的概述(根据自身经验有一定修改),另外同时附上机器学习实战中作者对各种算法的评价。另外机器学习实战这本书是本人看了这么多书籍或者资料中唯一一本坚持从头看到尾,看完了的书籍,包括其中的代码皆实践运行过,收获颇多,个人认为虽然这本书时间上已经算是老资料了,但其中作者的各种总结和代码的演练都由浅入深(前提还是要有一点...原创 2018-09-04 15:18:03 · 158913 阅读 · 7 评论 -
机器学习实战——PCA(主成分分析)
本章关于PCA的代码虽少,但涉及到的知识却很多,由于数学知识比较浅薄,所以在看这章时提前查找资料复习了很多的概率论和统计学知识和python基础知识,这里记录的很多都是关于PCA的相关知识或理论(例如:特征向量、协方差矩阵等),由于部分知识涉及较多,讲的有点详细所以文章篇幅较长尽量缩减了,下面进入正文。通常我们可以很清楚的看到一维数据,或直观的二维图形,但实际中很多的数据远不止1、2、3维,这...原创 2018-09-01 17:37:02 · 12246 阅读 · 1 评论 -
数据挖掘十大算法(四):Apriori(关联分析算法)
终于到了机器学习实战的第十一章了,这也是继K-均值后的第二个无监督学习算法了。同样的该算法也是在一堆数据集中寻找数据之间的某种关联,这里主要介绍的是叫做Apriori的‘一个先验’算法,通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务,本文主要介绍使用Apriori算法发现数据的(频繁项集、关联规则)。这些关系可以有两种形式:频繁项集、关联规则。 频...原创 2018-08-29 21:38:50 · 152512 阅读 · 35 评论 -
数据挖掘经典算法:线性回归、局部加权回归、岭回归、逐步线性回归 sklearn实现
这里记录一下关于回归方面的知识包括(线性回归、局部加权回归、岭回归、逐步线性回归)等基础思想和代码实现。以及sklearn的实现方法。(数据来自机器学习实战第八章)回归: 分类的目标变量是标称型数据,而回归可以对连续型数据做预测,同样也是寻找一条最佳的拟合线。 回归的目的是预测数值型的目标值,最直接的办法是根据输入数据写出一个目标值的计算公式,即一个线性方程:y=kx+bz...原创 2018-08-25 12:13:09 · 12525 阅读 · 1 评论 -
数据挖掘经典算法:FP-Growth算法(高效发现频繁项集)
本篇文章介绍一中与上一章Apriori算法功能类似的一种算法——FP-Growth,该算法速度更快、大多情况下效果更好,但是不能用于发现关联规则。以下都是通过机器学习实战与本人的实践过后的总结。FP-Growth算法,基于Apriori构建,但在完成相同任务时采用了不同的技术,其只需要对数据集进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此其比A...原创 2018-08-31 11:41:13 · 8330 阅读 · 2 评论 -
数据挖掘十大算法(七):AdaBoost python和sklearn实现
这里主要记录AdaBoost的(原理、一个代码示例、ROC曲线、sklearn实现)等四个方面。原理:AdaBoost算法属于一种迭代算法,它的核心思想是针对同一训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强大的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权...原创 2018-08-21 13:43:40 · 18947 阅读 · 0 评论 -
数据挖掘十大算法(二):K-Means、二分K-均值 python和sklearn实现
早在刚接触数据挖掘算法时就已经看过,以及使用过简单的K-均值算法来做聚类,现在为了进一步的掌握该知识,通过机器学习实战又看了一遍,由于相对于其它算法较简单,所以看的也比较快,同时也学习了一下更为强大的二分K-均值算法,该算法建立在K-Means算法上,但难度不大,理论知识也很好理解,所以这里对两者的思路都记录一下。本篇文章主要内容(K-Means原理、二分K-Means原理、基础代码实现、skle...原创 2018-08-27 20:53:08 · 18006 阅读 · 8 评论 -
数据挖掘十大算法(十):CART(分类回归树)
本文记录一下关于CART的相关知识其中包括(回归树、树的后剪枝、模型树、树回归模型的预测(树回归模型的评估))。在之前学习完ID3算法有记录一篇相关的学习笔记,所以后面学习CART算法能有一个比较和熟悉的理解。 贪心算法的决策树,构建算法是ID3,即通过香农熵计算数据的混乱程度,然后求出信息增益,每次选择最大信息增益的划分方式,作为当前的划分方式,直到数据集完成划分,被划分过的特征在之后...原创 2018-08-26 13:45:35 · 10216 阅读 · 1 评论 -
数据挖掘十大算法(三):支持向量机SVM sklearn实现
今天进入了支持向量机(SVM)的学习,如果只是对支持向量机的表面理论了解,那么还算不是太难。但是对于里面的数学推导真的不是一两天能看懂的(尤其是我这种数学功底不是很强的),使用编码实现数学推导的一系列过程也不是那么好理解的。由于时间关系,直接学习sklearn中SVM的使用,以后有时间再更新对支持向量机深入的了解。主要关于SVC和LinearSVC的翻译,有疑惑的地方可以查看最下面官方文档,自...原创 2018-08-15 17:53:17 · 2220 阅读 · 0 评论 -
sklearn——朴素贝叶斯
以下文章为一位博主翻译自某篇官方文档,在此引用:在scikit-learn中,提供了3中朴素贝叶斯分类算法:GaussianNB(高斯朴素贝叶斯)、MultinomialNB(多项式朴素贝叶斯)、BernoulliNB(伯努利朴素贝叶斯)简单介绍:高斯朴素贝叶斯:适用于连续型数值,比如身高在160cm以下为一类,160-170cm为一个类,则划分不够细腻。多项式朴素贝叶斯:常用于文...转载 2018-08-08 12:34:52 · 6713 阅读 · 0 评论 -
数据挖掘经典算法:Logistic(逻辑回归) python和sklearn实现
Logistic虽然不是十大经典算法之一,但却是数据挖掘中常用的有力算法,所以这里也专门进行了学习,以下内容皆为亲自实践后的感悟和总结(Logistic原理、代码实现和优化、真实样例数据、sklearn实现)。为了记录的比较清楚,所以内容可能有点多,但都比较浅显,下面进入正文。(运算数据来自机器学习第5章)Logistic原理:大体的思路:为了实现Logistic回归分类器,我们可以在每个...原创 2018-08-12 17:24:08 · 36341 阅读 · 4 评论 -
数据挖掘十大算法(九):朴素贝叶斯 python和sklearn实现
第三个算法终于算是稍有了解了,其实当你结合数据了解了它的实现原理后,你会发现确实很朴素。这里对朴素贝叶斯算法做一个介绍和总结,包括(原理、一个代码示例、sklearn实现),皆为亲自实践后的感悟,下面进入正文。原理:首先我们需要了解概率论的一些简单知识:最后推导出的就是贝叶斯公式,这里说一下我的感悟:上面的公式如果就这样不结合数据来看,是很容易理解的,我用了几分钟便了解了这个高中学...原创 2018-08-08 12:46:38 · 17036 阅读 · 1 评论 -
数据挖掘十大算法(一):决策树算法 python和sklearn实现
学完到第三章——决策树,python代码实现的仅是ID3算法,sklearn为优化过的C4.5,这里做一个详细的总结包括(原理、代码、可视化、scikit-learn实现),皆为亲自实践后的感悟。以下进入正文。早前简单了解了决策树的原理,然后为了尽快使用便没有深究直接使用sklearn实现,虽然sklearn使用起来极其极其的方便,但是我还是想理解到其中的代码实现机制以及一些数学知识,所以在《...原创 2018-08-04 13:16:06 · 36353 阅读 · 5 评论 -
机器学习实战——SVD(奇异值分解)
与PCA一样的学习过程,在学习SVD时同样补习了很多的基础知识,现在已经大致知道了PCA的应用原理,SVD个人感觉相对要难一点,但主要步骤还是能勉强理解,所以这里将书本上的知识和个人的理解做一个记录。主要关于(SVD原理、降维公式、重构原矩阵、SVD的两个实际应用),当然矩阵的分解和相对的公式我会给出写的更好的文章对于说明(个人基础有限)。(最后给出两条SVD最重要的公式)SVD(奇异值分...原创 2018-09-03 16:19:52 · 86218 阅读 · 32 评论