YCheng10-CSDN博客

原创数据理解和预处理阅读笔记

数据理解数据的记录的详细程度（天、小时等）确定研究群体（每部电影or每天的票房（层次分析））理解每个变量的含义（存在冗余变量）变量类型分类变量：名义变量（类别间没有顺序和好坏）转换方法0-1型哑变量；或者类别太多，将观测较多的类别拿出来，剩下的都归为“其他” 定序变量（类别间排列有好坏，会将类别程度转为数值自变量）数值变量：代数运算转换方式——

2017-03-29 20:29:58 356

原创 R_decision tree

R中决策树的代码实现： #C5.0M1<-C5.0(traindata$x,traindata$y)Summary(M1)predict(M1,test$data)table(对比结果)#RpartM1<-rpart(y~., data= ,method=”class” ) #.表示所有属性都包括，如果不是就写上用+相连，method是告诉我们希望结果是分类属性，而不像我之前做的结果是数值rpr

2017-03-27 16:27:37 904

原创 Kaggle_1_Titantic

Introduction On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out of 2224 passengers and crew. The dataset contains some kinds of informatio

2017-03-25 19:22:33 411

原创数据挖掘读书笔记-分类-决策树

 预测问题：分类、数值预测  分类=学习阶段+分类阶段  过分拟合：在学习期间，它可能包含了训练数据中的某些特定异常，这些异常不在一般数据集中出现。决策树自我概况算法：利用度量属性的指标（信息增益，增益率，基尼系数）找分裂属性，分裂点，分裂准则，使每个分区都是“纯”的，即分区内所有元祖都属于同一类。直到达到终止条件（3个）。防止过分拟合，还需要剪枝。  分类规则 

2017-03-23 06:25:18 270

原创数据挖掘读书笔记-数据预处理

1 数据清理 1.1 缺失值忽略该元组：元组中多个属性缺失的情况人工填补：费时使用全局变量填充：不可靠使用属性的中心度量（均值或中位数）填充：使用与给定元组属同一类的所有样本的属性均值或中位数：如果给定的数据分布是倾斜的，中位数更好使用最有可能的值填充：使用回归，贝叶斯等方法方法推理 3-6使数据有偏，6是常用的，用已有数据填充未知部分，考虑了其他属性值

2017-03-22 05:11:48 358

原创数据挖掘读书笔记-认识数据

1.数据属性标称：定性，众数有意义，例如：头发颜色，婚姻状况二元：定性序数：定性，中心趋势可以用众数和中位数，但是没有均值数值(连续)：定量 2.数据基本统计描述 2.1 中心趋势均值，中位数，众数截尾均值：丢弃高低极端值后的均值中值近似值：插值计算中列数：最大和最小值的平均值 2.2 数据散布极差，四分位数，四分位

2017-03-21 23:37:46 497

chengyn810的博客

原创数据理解和预处理阅读笔记

原创 R_decision tree

原创 Kaggle_1_Titantic

原创数据挖掘读书笔记-分类-决策树

原创数据挖掘读书笔记-数据预处理

原创数据挖掘读书笔记-认识数据

空空如也

空空如也

原创 数据理解和预处理阅读笔记

原创 R_decision tree

原创 Kaggle_1_Titantic

原创 数据挖掘读书笔记-分类-决策树

原创 数据挖掘读书笔记-数据预处理

原创 数据挖掘读书笔记-认识数据

空空如也

空空如也

原创数据理解和预处理阅读笔记

原创数据挖掘读书笔记-分类-决策树

原创数据挖掘读书笔记-数据预处理

原创数据挖掘读书笔记-认识数据