2018年05月_进击的橘子猫

原创数据科学猫：机器学习建模流程

所谓框架，或者说方法论，就是指整个设计数据科学（数据分析与挖掘，机器学习）的项目过程。不管项目领域是金融、电信、医学或者交通，其实只要项目中涵盖数据分析或数据挖掘的应用，项目的步骤大多会有些共通的地方。将这些共性的步骤总结并且归纳为一般性的方法，就变成了数据分析与挖掘的框架。在真正开始数据采集、抽样、清洗，甚至建模之前，一个清晰的框架等同于写作前的草稿。它是一个项目的骨架，能够为数据分析与挖掘...

2018-05-09 15:50:42 7733

原创 4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)

简介混淆矩阵是ROC曲线绘制的基础，同时它也是衡量分类型模型准确度中最基本，最直观，计算最简单的方法。一句话解释版本：混淆矩阵就是分别统计分类模型归错类，归对类的观测值个数，然后把结果放在一个表里展示出来。这个表就是混淆矩阵。数据分析与挖掘体系位置混淆矩阵是评判模型结果的指标，属于模型评估的一部分。此外，混淆矩阵多用于判断分类器（Classifier）的优劣，适用于...

2018-05-31 15:16:19 196244 41

原创 4.4.2分类模型评判指标（二） - ROC曲线与AUC面积

简介ROC曲线与AUC面积均是用来衡量分类型模型准确度的工具。通俗点说，ROC与AUC是用来回答这样的问题的：分类模型的预测到底准不准确？我们建出模型的错误率有多大？正确率有多高？两个不同的分类模型中，哪个更好用？哪个更准确？对于那些嫌太长不想看的同学，就看这两句话就好：如果我们选择用ROC曲线评判模型的准确性，那么越靠近左上角的ROC曲线，模型的准确度越高，模型越理想；如果我们选择用AUC面积评...

2018-05-30 12:21:59 8801

原创 4.3.2无监督学习（二） - 主成分分析（PCA）

主成分分析简称PCA，英文全称是Principal Component Analysis。它是无监督学习中降维模型中的一类，在实际的数据探索与建模中应用十分广泛。

2018-05-23 17:35:31 7346

原创数据科学猫：无监督学习的定义与模型

无监督学习的定义在有监督学习（Supervised Learning）中，我们的样本数据中通常包含p种特征量（features），X1, X2, . . . , Xp。他们有共同的对象（Response），Y。有监督学习的目的简单而言，都是一句话：用X去预测Y。而在无监督学习（Unsupervised Learning）中，我们的样本一般只有p种特征量（features），X1, X2, . . ...

2018-05-21 16:32:40 3813

原创 3.4.2数据标准化（一） - Z-Score标准化

在数据标准化中，常见的方法有如下三种：Z-Score 标准化最大最小标准化小数定标法本篇主要介绍第一种数据标准化的方法，Z-Score标准化。此方法在整个数据分析与挖掘体系中的位置如下图所示。Z-Score处理方法处于整个框架中的数据准备阶段。也就是说，在源数据通过网络爬虫、接口或其他方式进入数据库中后，下一步就要进行的数据预处理阶段中的重要步骤。数据分析与挖掘中，很多方法需要样本符合一定的标准，...

2018-05-14 18:05:25 119935 10

Orange_Spotty_Cat的博客

原创数据科学猫：机器学习建模流程

原创 4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)

原创 4.4.2分类模型评判指标（二） - ROC曲线与AUC面积

原创 4.3.2无监督学习（二） - 主成分分析（PCA）

原创数据科学猫：无监督学习的定义与模型

原创 3.4.2数据标准化（一） - Z-Score标准化

空空如也

空空如也

原创 数据科学猫：机器学习建模流程

原创 4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)

原创 4.4.2分类模型评判指标（二） - ROC曲线与AUC面积

原创 4.3.2无监督学习（二） - 主成分分析（PCA）

原创 数据科学猫：无监督学习的定义与模型

原创 3.4.2数据标准化（一） - Z-Score标准化

空空如也

空空如也

原创数据科学猫：机器学习建模流程

原创数据科学猫：无监督学习的定义与模型