2018年06月_罗罗攀

原创 sklearn调包侠之学习曲线和Pipeline

今天不单独讲解某个机器学习算法，而是讲解机器学习中常用的工具或者说是方法。一是绘制学习曲线，看模型的好坏程度（过拟合还是欠拟合）；而是减少代码量，利用pipeline构造算法流水线。学习曲线训练模型通常有三种情况：欠拟合、拟合较好和过拟合。欠拟合一般比较好判别，模型准确度不高都可以说是模型欠拟合。但判断模型是否过拟合，单独看准确度是不可信...

2018-06-30 09:43:00 266

原创 sklearn调包侠之逻辑回归

算法原理传送门：机器学习实战之Logistic回归正则化这里补充下正则化的知识。当一个模型太复杂时，就容易过拟合，解决的办法是减少输入特征的个数，或者获取更多的训练样本。正则化也是用来解决模型过拟合的一种方法。常用的有L1和L2范数做为正则化项。L1范数L1范数作为正则化项，会让模型参数θ稀疏话，就是让模型参数向量里为0的元素尽量...

2018-06-29 10:33:00 437

原创 sklearn调包侠之线性回归

线性回归原理如图所示，这是一组二维的数据，我们先想想如何通过一条直线较好的拟合这些散点了？直白的说：尽量让拟合的直线穿过这些散点（这些点离拟合直线很近）。目标函数（成本函数）要使这些点离拟合直线很近，我们需要用数学公式来表示：梯度下降法之前在讲解回归时，是通过求导获取最小值，但必须满足数据可逆，这里通常情...

2018-06-28 11:46:00 286

原创 sklearn调包侠之KNN算法

天下武功，唯快不破。今天就正式讲解如何通过《sklearn小抄》武林秘籍，成为一代宗师调包侠。欲练此功，必先自宫；就算自宫，未必成功；若不自宫，也能成功。传说江湖（机器学习领域）有两大派别：一是学术派，该派资历高，家境好，多为名门世家（学历高，数学好），重基础（数学推导和理论知识）；一是实践派，以找人切磋为主（实践为主），多在切磋中提升能力。...

2018-06-26 09:47:00 337

原创 sklearn调包侠之无敌小抄

scikit-learn（以下简称为sklearn）是用Python开发的机器学习库，其中包含大量机器学习算法、数据集，是数据挖掘方便的工具。本教程参考《Python机器学习及实战》、《scikit-learn机器学习》和sklearn的官方文档，详细讲解如何使用sklearn实现机器学习算法。首先，依旧讲讲写本系列教程的原因：第一，相比于直...

2018-06-23 22:52:00 254

原创机器学习实战之主成分分析（PCA）

如果人类适应了三维，去掉一个维度，进入了二维世界，那么人类就会因为缺少了原来所适应的一个维度，而无法生存。 ——《三体》在许多科幻电影中，有许多降维的例子。在《十万个冷笑话2》（可能只有萌新看过）中，大boss将主角降维到二维，就成了纸片人，进而失去了战斗能力；降维到一维，就变成了线条，这就是...

2018-06-21 20:36:00 318

原创机器学习实战之K-Means聚类

俗话说的好：“物以类聚，人以群分”，今天我们要讲的聚类算法很大程度上可以印证此话。聚类是一种非监督学习，什么是非监督学习？与之前学习的分类和回归不同（监督学习），监督学习是有有label标签的，而非监督学习没有。我们再回到聚类上，聚类是把相似的对象归到同一簇中，有点像全自动分类。聚类的应用场景有很多，例如在电商行业，通过用户的购买历史进行聚...

2018-06-20 19:24:00 265

原创机器学习实战之树回归

“回归”与“树”在讲解树回归之前，我们看看回归和树巧妙结合的原因。线性回归的弊端线性回归需要拟合所有样本点，在特征多且特征关系复杂时，构建全局模型的想法就显得太难。实际生活中，问题很大程度上不是线性的，而是非线性的，所以线性回归的很容易欠拟合。传统决策树弊端与改进决策树可以解决数据的非线性问题，而且直观易懂，是否可以通过决策树...

2018-06-19 19:57:00 196

原创机器学习实战之线性回归

之前我们学习的机器学习算法都是属于分类算法，也就是预测值是离散值。当预测值为连续值时，就需要使用回归算法。本文将介绍线性回归的原理和代码实现。线性回归原理与推导如图所示，这时一组二维的数据，我们先想想如何通过一条直线较好的拟合这些散点了？直白的说：尽量让拟合的直线穿过这些散点（这些点离拟合直线很近）。目标函数要使这些点离...

2018-06-16 16:09:00 256

原创机器学习实战之AdaBoost元算法

今天学习的机器学习算法不是一个单独的算法，我们称之为元算法或集成算法（Ensemble）。其实就是对其他算法进行组合的一种方式。俗话说的好：“三个臭皮匠，赛过诸葛亮”。集成算法有多种形式：对同一数据集，使用多个算法，通过投票或者平均等方法获得最后的预测模型；同一算法在不同设置下的集成；同一算法在多个不同实例下的集成。本文着重讲解最后一种集成算法。bagg...

2018-06-15 16:06:00 261

原创机器学习实战之Logistic回归

写在前面Logistic回归涉及到高等数学，线性代数，概率论，优化问题。本文尽量以最简单易懂的叙述方式，以少讲公式原理，多讲形象化案例为原则，给读者讲懂Logistic回归。如对数学公式过敏，引发不适，后果自负。Logistic回归原理与推导Logistic回归中虽然有回归的字样，但该算法是一个分类算法，如图所示，有两类数据（红点和绿点）分布如下，如...

2018-06-14 07:58:00 200

原创机器学习实战之朴素贝叶斯

在学习朴素贝叶斯分类模型之前，我们回顾一下之前学习的KNN和决策树，读者本人的总结：不同的机器学习方法有着不同的假设和理论进行支撑，而这些假设和理论在很大程度上体现了该算法的优缺点。KNN：在样本空间中，相同的类型数据在空间呈聚集状态，也就是距离会靠近，基于这个假设，只需要对测试样本与训练样本进行距离计算，最近距离的样本的类别很大程度上就是测试样本的类别...

2018-06-10 16:46:00 316

原创机器学习实战之决策树

决策树的算法可谓是贴近我们的生活，通过下面的案例，你就会发现我们每天都在有意无意的使用着决策树算法（好厉害的样子）。小明同学每天早上都要去学校，可步行、乘公交和坐隔壁老王叔叔的车（皮一下很开心）。这时，小明就开始做决策了：首先看天气，不下雨时就选择步行去学校；下雨时就看隔壁老王叔叔是否有空，有空就乘老王的车去学校，没空就选择乘公交去学校。如图所示。...

2018-06-09 19:29:00 196

原创机器学习实战之KNN算法

本系列教程为《机器学习实战》的读书笔记。首先，讲讲写本系列教程的原因：第一，《机器学习实战》的代码由Python2编写，有些代码在Python3上运行已会报错，本教程基于Python3进行代码的修订；第二：之前看了一些机器学习的书籍，没有进行记录，很快就忘记掉了，通过编写教程也是一种复习的过程；第三，机器学习相对于爬虫和数据分析而言，学习难度更大，希望通过...

2018-06-08 15:51:00 252

罗罗攀