![](https://img-blog.csdnimg.cn/20210323160537185.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
R模型
文章平均质量分 91
进击的橘子猫正式改名上线,欢迎大家关注我的微信公众号。我会定期在公众号与CSDN分享R语言如何实现机器学习与深度模型。
进击的橘子猫
这个作者很懒,什么都没留下…
展开
-
3.4.2数据标准化(一) - Z-Score标准化
在数据标准化中,常见的方法有如下三种:Z-Score 标准化最大最小标准化小数定标法本篇主要介绍第一种数据标准化的方法,Z-Score标准化。此方法在整个数据分析与挖掘体系中的位置如下图所示。Z-Score处理方法处于整个框架中的数据准备阶段。也就是说,在源数据通过网络爬虫、接口或其他方式进入数据库中后,下一步就要进行的数据预处理阶段中的重要步骤。数据分析与挖掘中,很多方法需要样本符合一定的标准,...原创 2018-05-14 18:05:25 · 119383 阅读 · 10 评论 -
4.3.1有监督学习(六) - 朴素贝叶斯分类(Naive Bayesian Classifier)
简介贝叶斯分类方法是与有监督学习中的最直观简单的方法。贝叶斯分类器缘起于贝叶斯定理,在定理的基础上发展为了朴素贝叶斯分类法(Naive Bayesian Classification)。朴素贝叶斯分类方法的好处在于简单直接,它一般用于概率推理与决策,即在信息不全的时候,通过观察随机变量,推断不可观察的随机变量。一句话解释版本:贝叶斯分类是利用概率论作为基础推断不可观测变量的类别,其基础...原创 2018-08-29 15:06:18 · 5616 阅读 · 0 评论 -
4.4.2分类模型评判指标(三) - KS曲线与KS值
简介KS曲线是用来衡量分类型模型准确度的工具。KS曲线与ROC曲线非常的类似。其指标的计算方法与混淆矩阵、ROC基本一致。它只是用另一种方式呈现分类模型的准确性。KS值是KS图中两条线之间最大的距离,其能反映出分类器的划分能力。一句话概括版本:KS曲线是两条线,其横轴是阈值,纵轴是TPR与FPR。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。KS值是MAX(TP...原创 2018-08-24 17:04:55 · 36390 阅读 · 2 评论 -
4.3.1有监督学习(五) - 支持向量机(SVM - Support Vector Machine)
简介支持向量机(Support Vector Machine,SVM)是一种有监督学习中的分类器。它适合小样本、非线性以及高维度的分割。SVM通过选择不同的核函数来构造不同的模型,并构建不同的分割器。例如,核函数为线性函数时,SVM等同于线性回归;核函数为Sigmoid时,SVM等价于神经网络。一句话解释版本:SVM通过非线性转换升维数据,实现线性可分;通过最大化边界,寻找最优分割器。...原创 2018-08-27 17:02:27 · 2924 阅读 · 0 评论 -
4.3.1有监督学习(三) - 决策树(Decision Tree) - 剪枝(Pruning)
简介决策树是与有监督学习中的常用方法。决策树的算法多见于分类问题中,即我们常说的分类树(Classification Tree);少数情况下,决策树也可以用于连续问题,即回归树(Regression Tree)。若构建决策树的自变量过多,会产生高维度、过拟合等问题,因此,需要在全树的基础上进行剪枝,保留最有效的自变量,删除不那么重要的自变量。这一过程,就叫剪枝。一句话解释版本:剪枝分为...原创 2018-08-13 18:28:38 · 4050 阅读 · 0 评论 -
4.3.1有监督学习(二) - 决策树(Decision Tree) - 构建树的核心指标
简介决策树是与有监督学习中的常用方法。决策树的算法多见于分类问题中,即我们常说的分类树(Classification Tree);少数情况下,决策树也可以用于连续问题,即回归树(Regression Tree)。总体而言,决策树是基于树状结构来进行决策的,它模仿了人在面临决定时自然的处理方式,并将这种决策的过程用树的姿态展现出来。一句话解释版本:决策树是在模仿人的决策过程,构造树的指标...原创 2018-06-15 13:19:09 · 3136 阅读 · 1 评论 -
4.4.2分类模型评判指标(一) - 混淆矩阵(Confusion Matrix)
简介混淆矩阵是ROC曲线绘制的基础,同时它也是衡量分类型模型准确度中最基本,最直观,计算最简单的方法。一句话解释版本:混淆矩阵就是分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来。这个表就是混淆矩阵。数据分析与挖掘体系位置混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于...原创 2018-05-31 15:16:19 · 195657 阅读 · 41 评论 -
4.4.2分类模型评判指标(二) - ROC曲线与AUC面积
简介ROC曲线与AUC面积均是用来衡量分类型模型准确度的工具。通俗点说,ROC与AUC是用来回答这样的问题的:分类模型的预测到底准不准确?我们建出模型的错误率有多大?正确率有多高?两个不同的分类模型中,哪个更好用?哪个更准确?对于那些嫌太长不想看的同学,就看这两句话就好:如果我们选择用ROC曲线评判模型的准确性,那么越靠近左上角的ROC曲线,模型的准确度越高,模型越理想;如果我们选择用AUC面积评...原创 2018-05-30 12:21:59 · 8750 阅读 · 0 评论 -
4.3.2无监督学习(二) - 主成分分析(PCA)
主成分分析简称PCA,英文全称是Principal Component Analysis。它是无监督学习中降维模型中的一类,在实际的数据探索与建模中应用十分广泛。原创 2018-05-23 17:35:31 · 7276 阅读 · 0 评论 -
4.3.2无监督学习(三) - 关联规则与Apriori算法
简介关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,关联规则算法中最出名的是Apriori算法。其应用最广为流传的是“啤酒与尿布”的例子。一句话解释版本:关联分析通过支持度与置信度衡...原创 2018-09-04 12:50:50 · 2827 阅读 · 0 评论