Python机器学习
罗罗攀
罗攀,林学的研究僧《从零开始学Python网络爬虫》《从零开始学Python数据分析》作者Python中文社区、Python爱好者社区专栏作者个人微信公众号:罗罗攀,来公众号勾搭作者,一起学习
展开
-
机器学习实战之KNN算法
本系列教程为《机器学习实战》的读书笔记。首先,讲讲写本系列教程的原因:第一,《机器学习实战》的代码由Python2编写,有些代码在Python3上运行已会报错,本教程基于Python3进行代码的修订;第二:之前看了一些机器学习的书籍,没有进行记录,很快就忘记掉了,通过编写教程也是一种复习的过程;第三,机器学习相对于爬虫和数据分析而言,学习难度更大,希望通过本系列文字教程,让读者在学习机器学习的路上...原创 2019-02-04 10:03:25 · 273 阅读 · 0 评论 -
sklearn调包侠之无敌小抄
scikit-learn(以下简称为sklearn)是用Python开发的机器学习库,其中包含大量机器学习算法、数据集,是数据挖掘方便的工具。本教程参考《Python机器学习及实战》、《scikit-learn机器学习》和sklearn的官方文档,详细讲解如何使用sklearn实现机器学习算法。首先,依旧讲讲写本系列教程的原因:第一,相比于直接编写各种算法,sklearn简单容易上手;第二,参考...原创 2019-02-07 16:28:15 · 258 阅读 · 0 评论 -
机器学习实战之主成分分析(PCA)
如果人类适应了三维,去掉一个维度,进入了二维世界,那么人类就会因为缺少了原来所适应的一个维度,而无法生存。 ——《三体》 在许多科幻电影中,有许多降维的例子。在《十万个冷笑话2》(可能只有萌新看过)中,大boss将主角降维到二维,就成了纸片人,进而失去了战斗能力;降维到一维,就变成了线条,这就是降维打击。 说直白点,降维就是将维度降低。在机器学习中...原创 2019-02-07 16:27:25 · 469 阅读 · 0 评论 -
机器学习实战之K-Means聚类
俗话说的好:“物以类聚,人以群分”,今天我们要讲的聚类算法很大程度上可以印证此话。聚类是一种非监督学习,什么是非监督学习?与之前学习的分类和回归不同(监督学习),监督学习是有有label标签的,而非监督学习没有。 我们再回到聚类上,聚类是把相似的对象归到同一簇中,有点像全自动分类。聚类的应用场景有很多,例如在电商行业,通过用户的购买历史进行聚类,针对不同的用户群体推送不同的广告。 K-Means...原创 2019-02-07 16:26:37 · 214 阅读 · 0 评论 -
机器学习实战之树回归
“回归”与“树” 在讲解树回归之前,我们看看回归和树巧妙结合的原因。 线性回归的弊端 线性回归需要拟合所有样本点,在特征多且特征关系复杂时,构建全局模型的想法就显得太难。 实际生活中,问题很大程度上不是线性的,而是非线性的,所以线性回归的很容易欠拟合。 传统决策树弊端与改进 决策树可以解决数据的非线性问题,而且直观易懂,是否可以通过决策树来实现回归任务? 我们来回顾下之前讲过的决策树方法,其...原创 2019-02-07 16:24:08 · 438 阅读 · 0 评论 -
机器学习实战之线性回归
之前我们学习的机器学习算法都是属于分类算法,也就是预测值是离散值。当预测值为连续值时,就需要使用回归算法。本文将介绍线性回归的原理和代码实现。 线性回归原理与推导 如图所示,这时一组二维的数据,我们先想想如何通过一条直线较好的拟合这些散点了?直白的说:尽量让拟合的直线穿过这些散点(这些点离拟合直线很近)。 目标函数 要使这些点离拟合直线很近,我们需要用数学公式来表示。首先,我们要求的直线公式为...原创 2019-02-07 16:22:57 · 279 阅读 · 0 评论 -
机器学习实战之AdaBoost元算法
今天学习的机器学习算法不是一个单独的算法,我们称之为元算法或集成算法(Ensemble)。其实就是对其他算法进行组合的一种方式。俗话说的好:“三个臭皮匠,赛过诸葛亮”。集成算法有多种形式:对同一数据集,使用多个算法,通过投票或者平均等方法获得最后的预测模型;同一算法在不同设置下的集成;同一算法在多个不同实例下的集成。本文着重讲解最后一种集成算法。 bagging 如果训练集有n个样本,我们随机抽取...原创 2019-02-07 16:21:42 · 204 阅读 · 0 评论 -
机器学习实战之Logistic回归
写在前面 Logistic回归涉及到高等数学,线性代数,概率论,优化问题。本文尽量以最简单易懂的叙述方式,以少讲公式原理,多讲形象化案例为原则,给读者讲懂Logistic回归。如对数学公式过敏,引发不适,后果自负。 Logistic回归原理与推导 Logistic回归中虽然有回归的字样,但该算法是一个分类算法,如图所示,有两类数据(红点和绿点)分布如下,如果需要对两类数据进行分类,我们可以通过一条...原创 2019-02-07 16:21:02 · 262 阅读 · 0 评论 -
机器学习实战之朴素贝叶斯
在学习朴素贝叶斯分类模型之前,我们回顾一下之前学习的KNN和决策树,读者本人的总结:不同的机器学习方法有着不同的假设和理论进行支撑,而这些假设和理论在很大程度上体现了该算法的优缺点。 KNN:在样本空间中,相同的类型数据在空间呈聚集状态,也就是距离会靠近,基于这个假设,只需要对测试样本与训练样本进行距离计算,最近距离的样本的类别很大程度上就是测试样本的类别。 决策树:基于信息理论。样本数据是混乱的...原创 2019-02-07 16:19:06 · 663 阅读 · 0 评论 -
机器学习实战之决策树
决策树的算法可谓是贴近我们的生活,通过下面的案例,你就会发现我们每天都在有意无意的使用着决策树算法(好厉害的样子)。 小明同学每天早上都要去学校,可步行、乘公交和坐隔壁老王叔叔的车(皮一下很开心)。这时,小明就开始做决策了:首先看天气,不下雨时就选择步行去学校;下雨时就看隔壁老王叔叔是否有空,有空就乘老王的车去学校,没空就选择乘公交去学校。如图所示。 决策树定义 通过上述案例,就可以对决策树下定...原创 2019-02-07 16:18:20 · 187 阅读 · 0 评论 -
sklearn调包侠之KNN算法
天下武功,唯快不破。今天就正式讲解如何通过《sklearn小抄》武林秘籍,成为一代宗师调包侠。欲练此功,必先自宫;就算自宫,未必成功;若不自宫,也能成功。传说江湖(机器学习领域)有两大派别:一是学术派,该派资历高,家境好,多为名门世家(学历高,数学好),重基础(数学推导和理论知识);一是实践派,以找人切磋为主(实践为主),多在切磋中提升能力。《机器学习实战》系列为学术派,《sklearn调包侠》...原创 2019-02-07 16:29:16 · 607 阅读 · 0 评论