机器学习
文章平均质量分 75
Dana-Song
这个作者很懒,什么都没留下…
展开
-
回归模型的几个评价指标
对于回归模型效果的判断指标经过了几个过程,从SSE到R-square再到Ajusted R-square, 是一个完善的过程:SSE(误差平方和):The sum of squares due to errorR-square(决定系数):Coefficient of determinationAdjusted R-square:Degree-of-freedom adjusted coeffic...原创 2018-02-26 14:29:12 · 75905 阅读 · 5 评论 -
PCA算法以及Python,R实现
1. PCA(Principal Component Analysis)算法流程设有m条n维数据,其中每条数据有n个特征。1)转置----将原始数据按列组成n行m列矩阵X2)中心化----将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值3)求出协方差矩阵M4)求出协方差矩阵M的特征值及对应的特征向量5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P6)Y=PX...原创 2018-03-01 13:13:11 · 1027 阅读 · 0 评论 -
分类模型的评价指标--混淆矩阵,ROC,AUC,KS,Lift,Gain
对于分类模型,常用的指标有混淆矩阵、ROC曲线,AUC值,KS曲线以及KS值、Lift图,Gain图等,查阅了很多的资料,加入自己的理解整理了一下他们的计算方法和意义,希望对大家有帮助。1. 混淆矩阵---确定截断点后,评价学习器性能假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应该有两个类别值,一个是真实的0/1,一个是预测的0/1 ...原创 2018-03-09 19:27:06 · 45478 阅读 · 6 评论 -
逻辑回归模型详解 LR
逻辑回归模型是一个非常非常非常常用的模型,在介绍LR之前,先介绍下广义线性模型1. 广义线性模型机器学习中常用于分类的“广义线性模型”,即对y进行变换使其为输入的线性叠加,注意g必须是单调可微的2. 逻辑回归模型 Logistic Regression应用场景:模型输入是连续变量,模型输出是类别(这里是正例或者反例)目标函数:利用了sigmoid函数将线性函数的结果转换到(0,1)之间,输出可以理...原创 2018-03-11 13:15:38 · 1535 阅读 · 0 评论 -
决策树 Decision Tree
决策树是一个有监督的分类算法,在每次分裂中都找到最容易区分一个集合和另一个集合的特征。在寻找最优特征时,DT算法保证了局部最优,但整体上看不一定是全局最优。一、目标 target因为决策树是一个有监督的算法,所以样本已经有一个变量用来表征这个样本的target,可能是正例/反例,也可以是多个类别(比如高/中/低)二、模型输入 model input在实际应用中,无论是离散特征还是连续特征,其实都可...原创 2018-03-12 13:56:21 · 909 阅读 · 0 评论 -
因子分析 Factor Analysis
因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法,它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。假想变量是不可观测的潜在变量,称为因子。作用:1. 降维2. 当样本数<特征数时,无法用梯度下降法和多元高斯分布进行拟合,可以利用因子分析降维从而完成任务数据处理:因子分析前,需要对数据进行归一化处理定义:满足以下几个条件...原创 2018-03-19 16:59:10 · 989 阅读 · 0 评论 -
聚类算法 -- 层次聚类
转自: http://bluewhale.cc/2016-04-19/hierarchical-clustering.html简介: 层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法,本篇文...转载 2018-03-29 14:32:34 · 1294 阅读 · 0 评论 -
带你搞懂朴素贝叶斯分类算法
带你搞懂朴素贝叶斯分类算法带你搞懂朴素贝叶斯分类算贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学...转载 2018-09-14 14:18:43 · 573 阅读 · 0 评论