![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
《Python机器学习基础教程》笔记
elma_tww
这个作者很懒,什么都没留下…
展开
-
《Python机器学习基础教程》估计器接口小结
《Python机器学习基础教程》笔记Scikit-Learn中的所有算法(预处理、监督学习、无监督学习等)都被实现为类。这些类在Scikit-Learn中叫作估计器,关于估计器的用法,以上做个小结:①首先需要将特定类的对象实例化。②在构建模型对象时,应该设置模型的所有参数。③所有估计器都有fit方法,fit方法要求第一个参数总是数据X,用一个numpy数组或scipy稀疏矩阵表示,...原创 2019-03-08 16:46:13 · 212 阅读 · 0 评论 -
《Python机器学习基础教程》模型评估指标(精度、混淆矩阵、准确率、召回率、f-分数、准确率召回率曲线、ROC曲线以及AUC)
《Python机器学习基础教程》笔记总结监督模型在给定数据集上的表现有很多种方法,例如,精度、混淆矩阵、准确率、召回率、f-分数、准确率召回率曲线、ROC曲线以及AUC。下面先以二分类为例,解释各种评估指标的含义,然后再拓展多分类的指标,最后简单介绍一下回归指标。一、二分类首先需要掌握几个术语的含义:①假正例(FP):预测错误,预测为“正”类,但实际是“反”类。②假反例(FN)...原创 2019-03-12 19:44:50 · 2989 阅读 · 0 评论 -
《Python机器学习基础教程》网格搜索GridSearchCV
《Python机器学习基础教程》笔记 机器学习模型的泛化性能可以通过调参来提升,但找到一个模型的重要参数(提供最佳泛化性能的参数)的取值是一项棘手的任务,不过,Scikit-Learn中有一些标准方法可以帮助找到最佳参数,最常用的方法就是网格搜索,主要是尝试我们关心的参数的所有可能组合。 接下来先根据网格搜索的思路,用自己的代码实现最优参数值搜索,以便理解,然后...原创 2019-03-12 16:59:01 · 3218 阅读 · 0 评论 -
《Python机器学习基础教程》各种交叉验证方法
《Python机器学习基础教程》笔记 交叉验证时一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。最常用的交叉验证是k折交叉验证,在此思想上改进的交叉验证方法还有分层交叉验证、打乱划分交叉验证、分组交叉验证、嵌套交叉验证。接下来逐一介绍。1.k折交叉验证原理:将数据划分为大致相等的k折(部分),轮流将某一折作为测试集,其它折作为训练集来训练模型和...原创 2019-03-11 22:00:21 · 1309 阅读 · 0 评论 -
《Python机器学习基础教程》数据表示与特征工程总结
《Python机器学习基础教程》笔记 数据是机器学习中很重要的一部分,对于不同的应用,数据的收集方式也会有所不同,一般来说,可分为三种特征类型:连续特征、分类特征(离散特征)和文本特征。 连续特征是可以用浮点数的大小去衡量,例如像素明暗程度、花的尺寸等;而分类特征通常不是数值,是固定列表中的元素,例如产品的品牌、产品的颜色等;文本特征,即自然语言。 ...原创 2019-03-11 21:26:18 · 599 阅读 · 0 评论 -
《Python机器学习基础教程》监督学习总结
《Python机器学习基础教程》笔记一、监督学习的分类监督学习主要有两种:分类与回归。分类问题的目标是预测类别标签,回归任务的目标是预测一个连续值。二、一些术语解释泛化:从训练集中学习出的模型应用到测试集上的能力过拟合:模型在训练集上表现良好,在测试集上表现不好欠拟合:模型在训练集和测试集上表现均不好特征工程:对已有特征做运算,导出新特征(例如,两个特征的积作为新特...原创 2019-03-07 22:25:38 · 3169 阅读 · 1 评论 -
《Python机器学习基础教程》处理文本数据
《Python机器学习基础教程》笔记一、文本数据中的数据类型一般有如下四种类型:①分类数据:来自固定列表中的数据(例如,红、黄、蓝)。②可以在语义上映射为类别的自由字符串:表达上自由发挥,但归根结底能与固定的类别对应(例如,倾国倾城的烈焰红色——红)。③结构化字符串数据:不与固定的类别对应(例如,地址,人名,地名)。④文本数据:由单词组成的文本(例如,一篇文章)二、将文...原创 2019-03-14 20:40:21 · 759 阅读 · 0 评论 -
机器学习必要的库和工具介绍
《Python机器学习基础教程》笔记 本书的所有例程都是基于Scikit-Learn,用Python实现的,因此,首先要保证已经装上了Python,然后,强烈推荐使用Jupyter notebook运行代码,另外,numpy,scipy,matplotlib,pandas也是不可或缺的。如果已经安装了Python和Jupyter notebook,便可以在Jupyter noteb...原创 2019-03-06 16:22:15 · 1240 阅读 · 0 评论 -
机器学习案例:鸢尾花分类——基于Scikit-Learn
《Python机器学习基础教程》笔记针对鸢尾花分类这个课题,我们按以下步骤进行:①获取数据集②检查数据③构建训练模型④进行预测并评估这只是几个简单的步骤,供初学者熟悉机器学习的大致流程,以及如何使用Scikit-Learn,对于大型工程来说,这些步骤还远远不够的。下面就这几个简单的步骤进行说明。一、获取数据集这里为了简单,直接用Scikit-Learn自带的鸢尾花数...原创 2019-03-06 19:25:17 · 6528 阅读 · 3 评论 -
《Python机器学习基础教程》无监督学习总结
《Python机器学习基础教程》笔记 无监督算法的一个常见应用是作为监督算法的预处理步骤,有时可以提高监督算法的精度,或者减少内存占用和时间开销。不过评估无监督算法却没有什么好方法,唯一的方法就是人工检查。一、无监督学习的分类无监督学习主要有两种类型:数据集变换与聚类。数据集变换:数据集的无监督变换是创建数据新的表示,与数据原始表示相比,新的表示可能更容易被人或其他机器...原创 2019-03-08 22:04:24 · 938 阅读 · 0 评论 -
机器学习之数据变换——基于Scikit-Learn
《Python机器学习基础教程》笔记一些算法,例如神经网络和SVM对数据缩放非常敏感,因此,通常的做法是对特征进行调节,使数据表示更适合于这些算法。Scikit-Learn中有4中数据变换方法,分别为:1.StandardScaler:确保每个特征的平均值为0,方差为1,使所有特征都位于同一量级。2.RobustScaler:工作原理与StandardScaler类似,但RobustS...原创 2019-03-08 19:37:17 · 360 阅读 · 0 评论 -
机器学习之分类器的不确定度估计——基于Scikit-Learn
《Python机器学习基础教程》笔记Scikit-Learn接口的一个有用之处就是分类器能够给出预测的不准确定估计,即分类器预测某个测试点属于某个类别的置信程度。Scikit-Learn中有两个函数可以用于获取分类器的不确定度估计:decision_function和predict_proba。大多数分类器都至少有其中一个函数。下面对这两个函数进行简单的介绍:1.decision_fu...原创 2019-03-08 19:10:08 · 1396 阅读 · 1 评论 -
《Python机器学习基础教程》构建管道(make_pipeline)
《Python机器学习基础教程》笔记 大多数机器学习应用不仅需要应用单个算法,而且还需要将许多不同的处理步骤和机器学习模型链接在一起,例如对数据进行缩放,然后手动合并特征,再利用无监督学习来学习特征。为了简化构建变换和模型链的过程,Scikit-Learn提供了pipeline类,可以将多个处理步骤合并为单个Scikit-Learn估计器。pipeline类本身具有fit、pre...原创 2019-03-12 21:01:32 · 16552 阅读 · 0 评论