数据处理
HKDER
这个作者很懒,什么都没留下…
展开
-
Python运用决策树方法和随机预测一个人的收入水平
一.数据集来源http://archive.ics.uci.edu/ml/datasets/Adult该数据集是美国1994年人口普查数据库,预测任务是确定一个人的年收入是否超过5万美元。该数据集有以下指标,并且有缺失项。二.方法决策树方法和随机森林方法三.步骤要对数据进行处理,删除缺失数据,然后对特征进行赋值,变换成哑变量。举一个例子:Edu值Prescho...原创 2020-02-08 15:18:35 · 2997 阅读 · 0 评论 -
非均衡数据或不均衡数据的处理方法
什么是非均衡数据?举个生活中的例子,我想大致调查一个年级(男生女生人数1:1)的平均体重,之后我随机抽了一个班进行测量,这个班50位同学,40位男生,10位女生,结果可想而知不准确。那这个数据就是非均衡数据了。非均衡数据就是我们的数据集不同类别的样本数之间相差很多。当我们进行机器学习任务时,如果样本有大量的非均衡数据,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样...原创 2019-09-25 11:43:02 · 4612 阅读 · 0 评论