机器学习特征工程
1特征工程概述与意义
1.1特征工程与意义
特征 :数据中抽取出来对结果预测有用的信息
特征工程是使用专业背景知识和技巧处理数据 使得特征能在机器学习算法上发挥更好的作用的过程
意义 更好的特征意味着更强的灵活度 只需要简单的模型 更好的结果
1.2工业界的机器学习建模
实际上
跑数据 各种map-reduce hive SQL 数据仓库搬砖
数据清洗 数据清洗 数据清洗
分析业务 分析case 找特征 找特征
简单可解释性好的模型为主 甚至一招LR 打天下
往往数据特征 决定预测的上限 模型(算法)是帮助我们来逼近这个上限的 所以数据有很大的重要程度
特征工程的流程是
计算机不能直接识别处理的原始数据(Raw data)如数据库,日志文件,文本,语音,图片等。
通过人物的特征处理
</