自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

罗罗攀

Python编程语言,工作学习,读书电影,分享生活的点点滴滴~

  • 博客(14)
  • 收藏
  • 关注

原创 sklearn调包侠之学习曲线和Pipeline

今天不单独讲解某个机器学习算法,而是讲解机器学习中常用的工具或者说是方法。一是绘制学习曲线,看模型的好坏程度(过拟合还是欠拟合);而是减少代码量,利用pipeline构造算法流水线。学习曲线训练模型通常有三种情况:欠拟合、拟合较好和过拟合。欠拟合一般比较好判别,模型准确度不高都可以说是模型欠拟合。但判断模型是否过拟合,单独看准确度是不可信...

2018-06-30 09:43:00 266

原创 sklearn调包侠之逻辑回归

算法原理传送门:机器学习实战之Logistic回归正则化这里补充下正则化的知识。当一个模型太复杂时,就容易过拟合,解决的办法是减少输入特征的个数,或者获取更多的训练样本。正则化也是用来解决模型过拟合的一种方法。常用的有L1和L2范数做为正则化项。L1范数L1范数作为正则化项,会让模型参数θ稀疏话,就是让模型参数向量里为0的元素尽量...

2018-06-29 10:33:00 437

原创 sklearn调包侠之线性回归

线性回归原理如图所示,这是一组二维的数据,我们先想想如何通过一条直线较好的拟合这些散点了?直白的说:尽量让拟合的直线穿过这些散点(这些点离拟合直线很近)。目标函数(成本函数)要使这些点离拟合直线很近,我们需要用数学公式来表示:梯度下降法之前在讲解回归时,是通过求导获取最小值,但必须满足数据可逆,这里通常情...

2018-06-28 11:46:00 286

原创 sklearn调包侠之KNN算法

天下武功,唯快不破。今天就正式讲解如何通过《sklearn小抄》武林秘籍,成为一代宗师调包侠。欲练此功,必先自宫;就算自宫,未必成功;若不自宫,也能成功。传说江湖(机器学习领域)有两大派别:一是学术派,该派资历高,家境好,多为名门世家(学历高,数学好),重基础(数学推导和理论知识);一是实践派,以找人切磋为主(实践为主),多在切磋中提升能力。...

2018-06-26 09:47:00 337

原创 sklearn调包侠之无敌小抄

scikit-learn(以下简称为sklearn)是用Python开发的机器学习库,其中包含大量机器学习算法、数据集,是数据挖掘方便的工具。本教程参考《Python机器学习及实战》、《scikit-learn机器学习》和sklearn的官方文档,详细讲解如何使用sklearn实现机器学习算法。首先,依旧讲讲写本系列教程的原因:第一,相比于直...

2018-06-23 22:52:00 254

原创 机器学习实战之主成分分析(PCA)

如果人类适应了三维,去掉一个维度,进入了二维世界,那么人类就会因为缺少了原来所适应的一个维度,而无法生存。 ——《三体》在许多科幻电影中,有许多降维的例子。在《十万个冷笑话2》(可能只有萌新看过)中,大boss将主角降维到二维,就成了纸片人,进而失去了战斗能力;降维到一维,就变成了线条,这就是...

2018-06-21 20:36:00 318

原创 机器学习实战之K-Means聚类

俗话说的好:“物以类聚,人以群分”,今天我们要讲的聚类算法很大程度上可以印证此话。聚类是一种非监督学习,什么是非监督学习?与之前学习的分类和回归不同(监督学习),监督学习是有有label标签的,而非监督学习没有。我们再回到聚类上,聚类是把相似的对象归到同一簇中,有点像全自动分类。聚类的应用场景有很多,例如在电商行业,通过用户的购买历史进行聚...

2018-06-20 19:24:00 265

原创 机器学习实战之树回归

“回归”与“树”在讲解树回归之前,我们看看回归和树巧妙结合的原因。线性回归的弊端线性回归需要拟合所有样本点,在特征多且特征关系复杂时,构建全局模型的想法就显得太难。实际生活中,问题很大程度上不是线性的,而是非线性的,所以线性回归的很容易欠拟合。传统决策树弊端与改进决策树可以解决数据的非线性问题,而且直观易懂,是否可以通过决策树...

2018-06-19 19:57:00 196

原创 机器学习实战之线性回归

之前我们学习的机器学习算法都是属于分类算法,也就是预测值是离散值。当预测值为连续值时,就需要使用回归算法。本文将介绍线性回归的原理和代码实现。线性回归原理与推导如图所示,这时一组二维的数据,我们先想想如何通过一条直线较好的拟合这些散点了?直白的说:尽量让拟合的直线穿过这些散点(这些点离拟合直线很近)。目标函数要使这些点离...

2018-06-16 16:09:00 256

原创 机器学习实战之AdaBoost元算法

今天学习的机器学习算法不是一个单独的算法,我们称之为元算法或集成算法(Ensemble)。其实就是对其他算法进行组合的一种方式。俗话说的好:“三个臭皮匠,赛过诸葛亮”。集成算法有多种形式:对同一数据集,使用多个算法,通过投票或者平均等方法获得最后的预测模型;同一算法在不同设置下的集成;同一算法在多个不同实例下的集成。本文着重讲解最后一种集成算法。bagg...

2018-06-15 16:06:00 261

原创 机器学习实战之Logistic回归

写在前面Logistic回归涉及到高等数学,线性代数,概率论,优化问题。本文尽量以最简单易懂的叙述方式,以少讲公式原理,多讲形象化案例为原则,给读者讲懂Logistic回归。如对数学公式过敏,引发不适,后果自负。Logistic回归原理与推导Logistic回归中虽然有回归的字样,但该算法是一个分类算法,如图所示,有两类数据(红点和绿点)分布如下,如...

2018-06-14 07:58:00 200

原创 机器学习实战之朴素贝叶斯

在学习朴素贝叶斯分类模型之前,我们回顾一下之前学习的KNN和决策树,读者本人的总结:不同的机器学习方法有着不同的假设和理论进行支撑,而这些假设和理论在很大程度上体现了该算法的优缺点。KNN:在样本空间中,相同的类型数据在空间呈聚集状态,也就是距离会靠近,基于这个假设,只需要对测试样本与训练样本进行距离计算,最近距离的样本的类别很大程度上就是测试样本的类别...

2018-06-10 16:46:00 316

原创 机器学习实战之决策树

决策树的算法可谓是贴近我们的生活,通过下面的案例,你就会发现我们每天都在有意无意的使用着决策树算法(好厉害的样子)。小明同学每天早上都要去学校,可步行、乘公交和坐隔壁老王叔叔的车(皮一下很开心)。这时,小明就开始做决策了:首先看天气,不下雨时就选择步行去学校;下雨时就看隔壁老王叔叔是否有空,有空就乘老王的车去学校,没空就选择乘公交去学校。如图所示。...

2018-06-09 19:29:00 196

原创 机器学习实战之KNN算法

本系列教程为《机器学习实战》的读书笔记。首先,讲讲写本系列教程的原因:第一,《机器学习实战》的代码由Python2编写,有些代码在Python3上运行已会报错,本教程基于Python3进行代码的修订;第二:之前看了一些机器学习的书籍,没有进行记录,很快就忘记掉了,通过编写教程也是一种复习的过程;第三,机器学习相对于爬虫和数据分析而言,学习难度更大,希望通过...

2018-06-08 15:51:00 252

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除