- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 贝叶斯分类
一 概念及引入 贝叶斯定理由 Thomas Bayes名字命名,他是18世纪概率论和决策论的早期研究者。 在介绍贝叶斯定理前,我们需要先了解三个概念: (1)条件概率:表示事件B已经发生的前提下,事件A发生的概率,其基本求解公式为:
2014-03-23 13:22:57 1130 2
原创 数据挖掘方法(7):解读逻辑回归
一. 数据描述 来源:数据集合(http://download.csdn.net/detail/huangxia73/7059709) 描述:电信数据,有多个属性,用来预测客户流失。 载入数据如下: > call_consumer<-read.table(file="d:/LabData/RData/churn.txt",header=TRUE,sep=",")Wa
2014-03-19 12:58:42 2050
原创 数据挖掘方法:(6) 逻辑回归
一. 引子 假设有如下关于患者年龄与患病情况的数据集: 我们画出对照图看看数据分布: > edit(patient) patient_id age if_sick [1,] 1 25 0 [2,] 2 29 0 [3,] 3 30
2014-03-18 14:15:56 1946
原创 数据挖掘方法(5):多重共线性及变量选择方法
一 概念 多重共线性: 也即使用的多个预测变量之间存在线性相关。多重共线性会导致解的不稳定,进而可能导致意外的结果。在线性代数中,基坐标必须是相互正交的,也即不相关的,此处在做多元回归预测时,必须保证预测变量之间是不相关的。 避免手段: (1)分析之前: a. 逐个计算预测变量之间的相关系数。 > cor(sugar$sugars,sugar$
2014-03-08 19:18:27 6489
原创 数据挖掘方法(4):多元回归
一. 概述 前面介绍了一个预测变量和一个回应变量的回归,但数据挖掘通常对一个回应变量和多个预测变量之间的关系更感兴趣,数据中可能有很多变量都与目标(回应)变量有线性关系,多元回归模型可以更加精确的预测这些关联。 多元回归模型如下: y=b0+b1*x1+b2*x2+.......+e 其中b0,b1,b2.....是模型参数,为常数,可以
2014-03-06 19:00:08 2285
原创 数据挖掘方法(3)回归假设检验
一. 概要 回归假设检验用于验证回归假设的正确性,本文用于验证回归假设的图形化方法有: 1. 显示残差的正态分布概率图 2. 标准残差与拟合(预测)值得图二 正态分布概率图 是某种特殊分布(数据样本的分布)的分位点与标准正态分布的分位点组成的一种 分位数----分位数 的图.它可以用来判定特殊的分布是否偏离正态分布(类似百分数
2014-03-03 19:18:58 2651
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人