《Python数据科学手册》笔记
elma_tww
这个作者很懒,什么都没留下…
展开
-
Scikit-Learn简介 —— 数据表示及评估器API
《Python 数据科学手册》笔记一、Scikit-Learn的数据表示 1.Scikit-Learn基本的数据表示二维网格数据,每一行表示数据集中的每个样本,每一列表示相关特征 (量化观测值)。例如鸢尾花数据集:2.通常将上述除开最后一列的表格称为特征矩阵,记为变量X,它是维度为[n_samples,n_features](即 [样本数,特征数])的二维矩阵。而最后一列...原创 2019-02-27 20:46:39 · 606 阅读 · 0 评论 -
机器学习之模型验证——基于Scikit-Learn
《Python数据科学手册》 笔记一、超参数 在模型拟合数据之前必须确定好的参数。二、交叉验证 将模型分为N组,每一轮依次用模型拟合其中的 N-1 组数据,再预测剩下一组数据,评估模型准确率。 以五轮交叉验证为例:用函数实现:这是在我上一篇博客代码的基础上添加的,单独这两行代码是要报错的哦!(上一篇博客)其中,model是实例化的...原创 2019-02-28 15:21:28 · 1633 阅读 · 1 评论 -
机器学习之特征工程——基于Scikit-Learn
《Python数据科学手册》 笔记前几篇博客的所有示例都假设已经拥有一个干净的[n_samples,n_features]特征矩阵。但在现实工作中,数据很少会这么干净,例如,数据中含有缺失值、含非数值内容等等。这时候,就需要用到特征工程——将其转换为特征矩阵的数值。接下来简要介绍如何处理分类特征、文本特征、图像特征,如何在已有的特征基础上衍生特征,以及如何填充缺失值。一、分类特征当数据...原创 2019-02-28 17:13:23 · 430 阅读 · 0 评论 -
机器学习之朴素贝叶斯分类——基于Scikit-Learn
《Python数据科学手册》笔记一、朴素贝叶斯分类原理在贝叶斯分类中,我们希望确定一个具有某些特征的样本属于某类标签的概率,通常记为P(L|特征)。贝叶斯公式为:假设要确定两种标签,定义为L1,L2,通过两个标签的后验概率比值其中P(L1)和P(L2)易知,故只需要求出P(特征|Li)即可,即要知道每类数据中各特征的概率分布。而这个概率分布很难确知,通常是用一些常见的分布做简单...原创 2019-03-01 19:20:26 · 1073 阅读 · 0 评论 -
机器学习之线性回归——基于Scikit-Learn
《Python数据科学手册》笔记一、简单线性回归最简单的线性回归模型是将数据拟合成一条直线,拟合方程为 y = ax + b,其中a是斜率,b是直线截距。二、基函数回归通过基函数对原始数据进行变换,将变量间的线性回归模型转换为非线性回归模型。常用的基函数有多项式基函数、高斯基函数。需要注意的是,基函数是对原始数据进行变换,模型仍然是一个线性模型。下面举例用Scikit-Learn...原创 2019-03-01 20:31:45 · 730 阅读 · 0 评论 -
机器学习案例:预测自行车流量——基于Scikit-Learn
《Python数据科学手册》笔记(因为没有下载到数据集,只能纸上谈兵的总结一下过程(o(╥﹏╥)o))针对这个例子,首先要明确任务,细分目标;然后准备数据集并提取相应特征;最后选择模型进行训练与预测。另外,如果预测效果不好,还得认真分析原因。一、明确目标,细分任务 首先要明确,我们的目的是预测自行车流量,而从经验来看,自行车流量可能与季节、天气、气温,是否为节假日,甚至...原创 2019-03-04 14:34:40 · 3988 阅读 · 1 评论 -
机器学习之支持向量机——基于Scikit-Learn
《Python数据科学手册》笔记一、支持向量机概念 画一条到最近点边界、有宽度的线条(二维空间中的直线或曲线)或者流体形体(多维空间中的曲线、曲面等概念)将各类分开,选择边界最大的那条线即是模型的最优解,支持向量机就是一个边界最大化评估器。有些点正好在边界线上,这些点正是拟合的关键支持点,被称为支持向量,任何在正确分类一侧原理边界线的点都不会影响拟合结果。二、支持向量机...原创 2019-03-04 18:57:46 · 480 阅读 · 0 评论 -
机器学习之决策树与随机森林——基于Scikit-Learn
《Python数据科学手册》笔记随机森林是一种集成算法,通过集成多个比较简单的评估器形成累积效果。更具体一点就是,随机森林是建立在决策树基础上的集成学习器。一、决策树决策树采用非常直观的方式对事物进行分类或打标签,它的每一个节点都根据一个特征的阈值将数据分成两组。在一棵结构合理的决策树中,每个问题基本上都可以将种类可能性减半,而难点也在于如何设计每一步的问题。二、随机森林通过组...原创 2019-03-04 19:53:45 · 910 阅读 · 0 评论 -
机器学习之主成分分析——基于Scikit-Learn
《Python数据科学手册》笔记主成分分析(PCA)是一个快速灵活的数据降维无监督方法,是应用最广泛的无监督算法之一。尤其适用于数据可视化、噪音过滤、特征抽取和特征工程等领域。用PCA降维意味着去除一个或多个最小主成分,得到一个更低维度且保留最大数据方差的数据投影。PCA的主要弱点是经常受数据集的异常点影响。一、“主成分”的含义例如如下的数据点(左图),可以找出一个主轴(右图长...原创 2019-03-04 21:28:30 · 776 阅读 · 0 评论 -
机器学习案例:利用主成分分析为人脸数据降维——基于Scikit-Learn
《Python数据科学手册》笔记该案例用的数据集为Scikit-Learn中的Wild数据集。首先将人脸数据中前几个主成分的图像进行可视化,然后再看看这些成分的累计方差,最后根据累计方差图选择合适的主成分对人脸数据进行低维重构,观察效果。一、特征脸from sklearn.datasets import fetch_lfw_peoplefaces = fetch_lfw_peo...原创 2019-03-04 22:22:36 · 1462 阅读 · 0 评论 -
机器学习之流形学习——基于Scikit-Learn
《Python数据科学手册》笔记流形学习是一种无监督评估器,使用流形学习评估器希望达成的基本目标是:给定一个高维嵌入数据,寻找数据的一个低维表示,并保留数据间的特定关系。流形学习的产生主要是为了弥补主成分分析(PCA)对非线性关系的数据集处理效果不好的缺陷。对“流形”的理解:将一张纸弯折或卷起,嵌入三维空间看上去不再是线性,但实际上并不会改变其平面特性,它仍是一个二维流形。流形法包括:...原创 2019-03-05 15:25:51 · 3055 阅读 · 1 评论 -
机器学习之 k-means聚类——基于Scikit-Learn
《Python数据科学手册》笔记聚类算法直接从数据的内在性质中学习最优的划分结果或者确定离散标签类型。一、k-means需要达到的效果k-means算法在不带标签的多维数据中寻找确定数量的簇,聚类结果应符合以下两个假设:①“簇中心点”是属于该簇的所有数据点坐标的算术平均值。②一个簇的每个点到该簇中心点的距离,比到其他簇中心点的距离短。例如图1的二维数据,应用k-means算...原创 2019-03-05 16:34:45 · 415 阅读 · 0 评论 -
机器学习案例:k-means用于色彩压缩——基于Scikit-Learn
《Python数据科学手册》笔记聚类算法的一个有趣应用是图像色彩压缩。高分辨率的图像可能包含几百万种颜色,但是其实很大一部分色彩通常不会被眼睛注意到,而且图像中的很多像素都拥有类似或者相同的颜色,因此,在需要的时候,我们可以对其进行压缩。在此,用k-means实现对一幅包含几百万种颜色的图像将近一百万压缩比的压缩处理。图像来源:Scikit-Learn的datasets模块,原图像存储在一...原创 2019-03-05 19:24:40 · 1459 阅读 · 1 评论 -
Scikit-Learn 高版本(0.18版及以上)与低版本(0.18版以上)的部分用法对比
学习《Python数据科学手册》的机器学习部分时,里面所有的处理都是基于Scikit-Learn程序包,但是书上用的Scikit-Learn版本低于0.18,而我安装的Scikit-Learn版本高于0.18,照着书上的代码敲进去运行有时会报错,说没有某某模块,摸索了许久才推敲出来高版本的Scikit-Learn对应的用法。在此将这本书上遇到的高低版本用法不同的地方总结出来,也希望...原创 2019-03-05 21:07:36 · 5474 阅读 · 2 评论 -
机器学习之高斯混合模型——基于Scikit-Learn
《Python数据科学手册》笔记一、高斯混合模型(GMM)的由来 首先回顾一下k-means模型:它在每一个簇中心放置一个圆圈(在更高维空间中是一个超空间),圆圈半径根据最远的点与簇中心点的距离算出,在圆圈之外的任何点都不是该簇的成员。这里最核心的一点是,k-means要求这些簇的模型必须是圆形,k-算法没有内置的方法来实现椭圆形的簇。因此,拟合非圆形的分类数据时,效果不好。如...原创 2019-03-05 21:43:42 · 2566 阅读 · 0 评论 -
机器学习概念、分类及应用简介
《Python数据科学手册》 笔记一、机器学习的概念 机器学习的本质是借助数学模型理解数据,通俗来讲,就是给模型装上合适的可调参数,通过观测数据不断去调参,更新模型,最终“学习”到一个适应于新的观测数据的模型。二、机器学习的分类三、机器学习的应用垃圾邮件自动识别:根据垃圾邮件关键词与短语出现的频次来分类“垃圾邮件”和“普通邮件”计算星系距离:根据星系的波长...原创 2019-02-27 19:30:16 · 2897 阅读 · 0 评论