自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据理解和预处理阅读笔记

数据理解数据的记录的详细程度(天、小时等)确定研究群体(每部电影or每天的票房(层次分析))理解每个变量的含义(存在冗余变量)变量类型分类变量:名义变量(类别间没有顺序和好坏)转换方法0-1型哑变量;或者类别太多,将观测较多的类别拿出来,剩下的都归为“其他”定序变量(类别间排列有好坏,会将类别程度转为数值自变量)数值变量:代数运算转换方式——

2017-03-29 20:29:58 339

原创 R_decision tree

R中决策树的代码实现:#C5.0M1<-C5.0(traindata$x,traindata$y)Summary(M1)predict(M1,test$data)table(对比结果)#RpartM1<-rpart(y~., data= ,method=”class” ) #.表示所有属性都包括,如果不是就写上用+相连,method是告诉我们希望结果是分类属性,而不像我之前做的结果是数值rpr

2017-03-27 16:27:37 880

原创 Kaggle_1_Titantic

IntroductionOn April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out of 2224 passengers and crew. The dataset contains some kinds of informatio

2017-03-25 19:22:33 402

原创 数据挖掘读书笔记-分类-决策树

 预测问题:分类、数值预测 分类=学习阶段+分类阶段 过分拟合:在学习期间,它可能包含了训练数据中的某些特定异常,这些异常不在一般数据集中出现。决策树自我概况算法:利用度量属性的指标(信息增益,增益率,基尼系数)找分裂属性,分裂点,分裂准则,使每个分区都是“纯”的,即分区内所有元祖都属于同一类。直到达到终止条件(3个)。防止过分拟合,还需要剪枝。 分类规则

2017-03-23 06:25:18 257

原创 数据挖掘读书笔记-数据预处理

1 数据清理1.1 缺失值忽略该元组:元组中多个属性缺失的情况人工填补:费时使用全局变量填充:不可靠使用属性的中心度量(均值或中位数)填充:使用与给定元组属同一类的所有样本的属性均值或中位数:如果给定的数据分布是倾斜的,中位数更好使用最有可能的值填充:使用回归,贝叶斯等方法方法推理3-6使数据有偏,6是常用的,用已有数据填充未知部分,考虑了其他属性值

2017-03-22 05:11:48 337

原创 数据挖掘读书笔记-认识数据

1.数据属性标称:定性,众数有意义,例如:头发颜色,婚姻状况二元:定性序数:定性,中心趋势可以用众数和中位数,但是没有均值数值(连续):定量2.数据基本统计描述2.1 中心趋势均值,中位数,众数截尾均值:丢弃高低极端值后的均值中值近似值:插值计算中列数:最大和最小值的平均值2.2 数据散布极差,四分位数,四分位

2017-03-21 23:37:46 483

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除