自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shy19890510的博客

数据分析师小白

  • 博客(6)
  • 收藏
  • 关注

转载 聚类算法 -- 层次聚类

转自: http://bluewhale.cc/2016-04-19/hierarchical-clustering.html简介: 层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法,本篇文...

2018-03-29 14:32:34 1279

原创 因子分析 Factor Analysis

因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法,它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。假想变量是不可观测的潜在变量,称为因子。作用:1. 降维2. 当样本数<特征数时,无法用梯度下降法和多元高斯分布进行拟合,可以利用因子分析降维从而完成任务数据处理:因子分析前,需要对数据进行归一化处理定义:满足以下几个条件...

2018-03-19 16:59:10 957

原创 决策树 Decision Tree

决策树是一个有监督的分类算法,在每次分裂中都找到最容易区分一个集合和另一个集合的特征。在寻找最优特征时,DT算法保证了局部最优,但整体上看不一定是全局最优。一、目标 target因为决策树是一个有监督的算法,所以样本已经有一个变量用来表征这个样本的target,可能是正例/反例,也可以是多个类别(比如高/中/低)二、模型输入 model input在实际应用中,无论是离散特征还是连续特征,其实都可...

2018-03-12 13:56:21 891

原创 逻辑回归模型详解 LR

逻辑回归模型是一个非常非常非常常用的模型,在介绍LR之前,先介绍下广义线性模型1. 广义线性模型机器学习中常用于分类的“广义线性模型”,即对y进行变换使其为输入的线性叠加,注意g必须是单调可微的2. 逻辑回归模型 Logistic Regression应用场景:模型输入是连续变量,模型输出是类别(这里是正例或者反例)目标函数:利用了sigmoid函数将线性函数的结果转换到(0,1)之间,输出可以理...

2018-03-11 13:15:38 1519

原创 分类模型的评价指标--混淆矩阵,ROC,AUC,KS,Lift,Gain

对于分类模型,常用的指标有混淆矩阵、ROC曲线,AUC值,KS曲线以及KS值、Lift图,Gain图等,查阅了很多的资料,加入自己的理解整理了一下他们的计算方法和意义,希望对大家有帮助。1. 混淆矩阵---确定截断点后,评价学习器性能假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应该有两个类别值,一个是真实的0/1,一个是预测的0/1 ...

2018-03-09 19:27:06 45360 6

原创 PCA算法以及Python,R实现

1. PCA(Principal Component Analysis)算法流程设有m条n维数据,其中每条数据有n个特征。1)转置----将原始数据按列组成n行m列矩阵X2)中心化----将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值3)求出协方差矩阵M4)求出协方差矩阵M的特征值及对应的特征向量5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P6)Y=PX...

2018-03-01 13:13:11 1014

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除