自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (3)
  • 收藏
  • 关注

原创 贝叶斯分类

一 概念及引入      贝叶斯定理由 Thomas Bayes名字命名,他是18世纪概率论和决策论的早期研究者。      在介绍贝叶斯定理前,我们需要先了解三个概念:    (1)条件概率:表示事件B已经发生的前提下,事件A发生的概率,其基本求解公式为:

2014-03-23 13:22:57 1130 2

原创 数据挖掘方法(7):解读逻辑回归

一.  数据描述    来源:数据集合(http://download.csdn.net/detail/huangxia73/7059709)   描述:电信数据,有多个属性,用来预测客户流失。 载入数据如下:  > call_consumer<-read.table(file="d:/LabData/RData/churn.txt",header=TRUE,sep=",")Wa

2014-03-19 12:58:42 2050

原创 数据挖掘方法:(6) 逻辑回归

一.  引子        假设有如下关于患者年龄与患病情况的数据集:           我们画出对照图看看数据分布:   > edit(patient) patient_id age if_sick [1,] 1 25 0 [2,] 2 29 0 [3,] 3 30

2014-03-18 14:15:56 1946

原创 数据挖掘方法(5):多重共线性及变量选择方法

一  概念       多重共线性: 也即使用的多个预测变量之间存在线性相关。多重共线性会导致解的不稳定,进而可能导致意外的结果。在线性代数中,基坐标必须是相互正交的,也即不相关的,此处在做多元回归预测时,必须保证预测变量之间是不相关的。   避免手段:      (1)分析之前:    a. 逐个计算预测变量之间的相关系数。 > cor(sugar$sugars,sugar$

2014-03-08 19:18:27 6489

原创 数据挖掘方法(4):多元回归

一.  概述      前面介绍了一个预测变量和一个回应变量的回归,但数据挖掘通常对一个回应变量和多个预测变量之间的关系更感兴趣,数据中可能有很多变量都与目标(回应)变量有线性关系,多元回归模型可以更加精确的预测这些关联。    多元回归模型如下:           y=b0+b1*x1+b2*x2+.......+e    其中b0,b1,b2.....是模型参数,为常数,可以

2014-03-06 19:00:08 2285

原创 数据挖掘方法(3)回归假设检验

一. 概要    回归假设检验用于验证回归假设的正确性,本文用于验证回归假设的图形化方法有:         1. 显示残差的正态分布概率图   2. 标准残差与拟合(预测)值得图二 正态分布概率图      是某种特殊分布(数据样本的分布)的分位点与标准正态分布的分位点组成的一种 分位数----分位数 的图.它可以用来判定特殊的分布是否偏离正态分布(类似百分数

2014-03-03 19:18:58 2651

hadoop-2.5.2 和eclipse插件

hadoop eclipse插件

2015-10-22

文本相似度论文和网页查重

各种文本相似度论文,包含网页查重的论文。

2013-07-30

兼容lucene 3.5的paoding包

原本由 好山西人才在线 分享。自己亲身实验成功,不用SVN和ant

2013-06-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除