Data Mining上课的笔记

最新推荐文章于 2022-03-21 22:54:37 发布

VeraulaDocherPap

最新推荐文章于 2022-03-21 22:54:37 发布

阅读量236

点赞数 1

分类专栏： data mining

本文链接：https://blog.csdn.net/VeraulaDocherPap/article/details/89343058

版权

2 篇文章 0 订阅

订阅专栏

本文主要探讨了数据挖掘中分类遇到的问题，如欠拟合和过拟合，以及如何通过决策树和Weka工具进行解决。介绍了决策树的优缺点，评估指标如基尼指数和熵，以及Weka中的资料处理和建树步骤，包括Discretize、J48算法等，并讨论了不同测试方法的优缺点，如交叉验证。

摘要由CSDN通过智能技术生成

分类

学习不足：model太简单，训练集和测试集的error都很大
过度学习：随node数量上升（训练集正确度上升），测试集的正确度反而下降

计算时间短、建构成本低、较小的树比较好理解、对简单的资料集准确度不亚于其他方法

项目	CART	ID3	C 4.5
国籍	美	澳	澳
作者	布莱曼	昆兰	昆兰
年份	1984	1986	1993
分支	二分	多分	多分
变数	x，y不限	x名目，y名目	x名目、连续，y名目
index	Gini	Entropy，InfoGain	Entropy，InfoGain
特色	医疗（目标为连续型）	连续最快	最常用

GINI
$GINI(t)=1-\sum_{j}\bigl(p(j|t)\bigr)^2$
$GINI(split)=\sum_{i=1}^k \frac{n_i}{n} GINI(i)$
Entropy
在ID3或是C4.5中会用到，会分的很细很小但是pure
$Entropy(t)=-\sum_{j} p(j|t)log_2p(j|t)$
$GAIN_{split}=Entropy(p)-\bigl(\sum_{i=1}^k\frac{n_i}{n}Entropy(i)\bigr)$
Error
$E r r o r (t) = 1 - m a x P (i ∣ t)$

乐观法则： $\frac{错误数量}{总数}$
悲观法则： $\frac{错误数量+node数量*0.5}{总数}$
REP(reduced error pruning)：测试集正确率
Holdout Method：部分训练、部分测试
- 缺点：
  - 资料太少不好分
  - 依赖于训练、测试资料集
  - 训练集太小则变动会很大
  - 训练集太大测试结果不准确
Random Subsampling
- 重复使用holdout
- 缺点
  - 无法控制用于训练和测试的数量
  - 偏向测试集
Cross-validation
- 一部分用来训练、另一部分用来测试，然后互换（2-fold）
- 极端：leave-one-out（n笔测试资料时的n-fold）
- 优点
  - 最大化可以训练的资料
  - 测试集和训练集是完全区分的，且涵盖了所有资料
- 缺点
  - 计算量很大
  - 估计的变动会很大

把资料离散化
attributeIndices：操作对象
bins：分组数量
useEqualFrequency：范围等宽还是数量相等

use training set：用训练集直接测试
supplied test set：使用测试集
cross-validation：交叉测试
percentage split：部分训练、部分测试

save model：保存模型
re-evaluate model on current test set：用目前提供的test set重新测试
visualize-tree：建树视觉化
save result buffer：保存结果

C4.5 Java version8
可以对nominal和continuous分类

confidenceFactor：可以被忽略的百分比
minNumObj：可以被忽略的个数
unPruned：是否修剪

在select attributes下，选择方法（cfs或是infoGain等）产生结果，再对原始资料进行处理

关注

专栏目录