来源:http://archive.ics.uci.edu/
翻译原文:http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names
根据15个特征预测一个人是否拥有50K以上的年收入,比较各个算法下的错误率,先给出结果
算法名称 错误率
| Algorithm Error | -- ---------------- ----- | 1 C4.5 15.54 | 2 C4.5-auto 14.46 | 3 C4.5 rules 14.94 | 4 Voted ID3 (0.6) 15.64 | 5 Voted ID3 (0.8) 16.47 | 6 T2 16.84 | 7 1R 19.54 | 8 NBTree 14.10 | 9 CN2 16.00 | 10 HOODG 14.82 | 11 FSS Naive Bayes 14.05 | 12 IDTM (Decision table) 14.46 | 13 Naive-Bayes 16.12 | 14 Nearest-neighbor (1) 21.42 | 15 Nearest-neighbor (3) 20.35 | 16 OC1 15.04 | 17 Pebls Crashed. Unknown why (bounds WERE increased)可以看到朴素贝叶斯还是很坚挺的
数据优化处理后,以50K为阈值将收入离散到两个区域内,由MLC++ GenCVFiles生成数据并测试,数据实例有45K,训练样本30K,测试个数15K
特征有 年龄 工作环境 受教育 受教育时长 婚姻状况 职业性质 家庭成员 种族肤色 性别 出生地
数据来源是非体制内的,年龄在16-50岁的公民,控制因素有种族,年龄,性别