#特征工程
##一、简介
特征是指数据中抽取出来的对结果预测有用的信息
特征工程是使用专业背景和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
##二、特征工程的意义:
1. 更好的特征意味着更强的灵活性
2. 更好的特征意味着只需要简单模型
3. 更好的特征意味着更好的结果
##三、工作应用
工作中可能70%的时间处理数据,30%的时间建模、模型状态评估
算法、模型的研究是一些算法专家、专业人员在做
大部分人的工作
跑数据,数据库搬砖
数据清洗,数据清洗,数据清洗…
业务分析,分析case, 找特征,找特征…
一招LR打天下,LogisticRegressor逻辑斯蒂回归
##四、影响预测结果好坏的因素
1. 模型的选择
KNN、线性回归、领回归,Lasso、逻辑斯蒂回归、SVM、决策树、贝叶斯、Kmeans……
2. 可用的数据
特征的提取
##五、特征工程的重要环节
数据采集,考虑哪些数据有用
数据格式化, 确定存储格式,例如时间格式、int、float等
数据清洗(data cleaning)
错误数据:例如人身高5m,这样的数据无论是否