数据挖掘算法简介
文章平均质量分 89
主要介绍统计学中基本统计原理和计算机中数据挖掘基础算法,附带部分算法实现代码
春夏秋冬又一年
数据分析师
展开
-
数据挖掘方法(7):解读逻辑回归
一. 数据描述 来源:数据集合(http://download.csdn.net/detail/huangxia73/7059709) 描述:电信数据,有多个属性,用来预测客户流失。 载入数据如下: > call_consumer<-read.table(file="d:/LabData/RData/churn.txt",header=TRUE,sep=",")Wa原创 2014-03-19 12:58:42 · 2036 阅读 · 0 评论 -
数据挖掘方法:(6) 逻辑回归
一. 引子 假设有如下关于患者年龄与患病情况的数据集: 我们画出对照图看看数据分布: > edit(patient) patient_id age if_sick [1,] 1 25 0 [2,] 2 29 0 [3,] 3 30原创 2014-03-18 14:15:56 · 1926 阅读 · 0 评论 -
数据挖掘方法(5):多重共线性及变量选择方法
一 概念 多重共线性: 也即使用的多个预测变量之间存在线性相关。多重共线性会导致解的不稳定,进而可能导致意外的结果。在线性代数中,基坐标必须是相互正交的,也即不相关的,此处在做多元回归预测时,必须保证预测变量之间是不相关的。 避免手段: (1)分析之前: a. 逐个计算预测变量之间的相关系数。 > cor(sugar$sugars,sugar$原创 2014-03-08 19:18:27 · 6427 阅读 · 0 评论 -
数据挖掘方法(4):多元回归
一. 概述 前面介绍了一个预测变量和一个回应变量的回归,但数据挖掘通常对一个回应变量和多个预测变量之间的关系更感兴趣,数据中可能有很多变量都与目标(回应)变量有线性关系,多元回归模型可以更加精确的预测这些关联。 多元回归模型如下: y=b0+b1*x1+b2*x2+.......+e 其中b0,b1,b2.....是模型参数,为常数,可以原创 2014-03-06 19:00:08 · 2269 阅读 · 0 评论 -
数据挖掘方法(3)回归假设检验
一. 概要 回归假设检验用于验证回归假设的正确性,本文用于验证回归假设的图形化方法有: 1. 显示残差的正态分布概率图 2. 标准残差与拟合(预测)值得图二 正态分布概率图 是某种特殊分布(数据样本的分布)的分位点与标准正态分布的分位点组成的一种 分位数----分位数 的图.它可以用来判定特殊的分布是否偏离正态分布(类似百分数原创 2014-03-03 19:18:58 · 2631 阅读 · 0 评论 -
数据挖掘方法(2) 回归模型(简单线性回归)
一.概念 简单线性回归模型是用于估计一个连续预测变量和一个连续回应变量的线性关系。 回归方程或估计回归方程(estimated regression equation,ERE): y~=b0+b1*x 其中: .y~是回应变量的估计值 .b0是回归线在y轴上的截距 .b1是回归线的斜率 .b0和b1原创 2014-02-25 15:05:33 · 6205 阅读 · 0 评论 -
数据挖掘方法(1)主成分分析
一.概念 主成分分析(principle components analysis,PCA)是指将多个变狼通过线性组合,选出较少个数的重要变量集合来描述相关结构的额一种统计分析方法,这些线性组合被称为“成分”。由m个变量组成的数据集的总变异,可以由k个线性组合变量组成的子集来标示(k原创 2014-02-24 17:03:00 · 4470 阅读 · 0 评论