最重要的事情开始都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂 广义数据预处理包括:数据清洗,数据集成(用户基础数据,外部第三方数据,埋点数据),数据变换(WOE) 类型 重复值 字段问题 空格 大小写不一致 多余符号 关键字 替换 缺失值 完全随机缺失(是随机的,数据的缺失不依赖于任何不完全变量或完全变量:设备出问题,导致缺失值,仅仅本身问题) 随机缺失(数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。比如家里没有小孩,家里不愿意说小孩或者单身没有太太,即选项