数据导入与预处理
--star
不怕千万人阻挡,只怕自己投降。
展开
-
数据预处理综合练习1
6.所属省,所属市,所属地区,详细地址合并为家庭住址,并将所属省,所属市,所属地区,详细地址删除。10.预处理完成后输出student.xls。9.去除其中的完全重复数据和不完全重复数据。5.出生日期格式转为yyyy-MM-dd。7.手机号码 必须为1开头的全数字。1.将姓名的左右两端空格去除。3.性别为空的用“未知”替换。8.所修课程拆分为不同的列。2.姓名全拼转为大写。原创 2022-10-27 10:45:52 · 1375 阅读 · 0 评论 -
数据变换--数据规范化
3)小数定标规范化:通过移动属性A的小数点位置进行规范化,小数点的移动依赖于A的最大绝对值。其中,meanA、 standard_devA分别为属性A取值的均值和标准差。常用于属性最大值与最小值未知,或使用最小最大规范化方法会出现异常数据的情况。:将属性数据按比例缩放,使之落入一个小的特定区间。将属性A的值根据其平均值和标准差进行规范化;原创 2022-09-03 08:58:05 · 1966 阅读 · 0 评论 -
分箱--例题
分箱例题原创 2022-08-30 16:58:17 · 1705 阅读 · 0 评论 -
数据导入与预处理
帮助从原有庞大数据集中获得精简的数据集合,使该精简的数据集保持原有数据集的完整性,这样精简的数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与原有数据集所获得的结果基本相同。脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据(越早处理脏数据,数据清理操作越简单)造成不准确原因:数据收集设备故障,数据输入错误,数据传输过程出错,命名约定、数据代码、输入字段的格式不一致。小数据集的挖掘结果(精简数据集挖掘结果) 几乎等于 大数据集的挖掘结果(原有数据集挖掘结果)...原创 2022-08-30 16:53:10 · 1956 阅读 · 0 评论