大部分时间都用于数据清理、处理以及格式转化,然后再应用机器学习模型。
工业应用:
经济相关:股市、房价预测;
能源相关:产能预测、分配与合理使用;
NLP相关:检索、分类、主题、相似度;
互联网用户行为:CTR预测;
销量预测:电商、连锁店、超市;
深度学习应用:图像内容理解;
推荐系统相关:电商推荐;
其他预测:气候、社交网络分析。
工具和算法:
非监督学习:
- 聚类&降维(SVD、PCA、K-means)
- 关联分析(Apriori、FP-Growth)
- 隐马尔可夫模型
监督学习:
- 回归(线性、多项式)
- 决策树
- 随机森林
- 分类(KNN、Trees、LR、NB、SVM)
常用工具:
scikit-learn、gensim、NumPy、XGBoost、matplotlib、pandas、Natural Language Toolkit、TensorFlow、Caffe、Keras
建模流程:
- 数据处理
- 数据清洗—丢掉不可信样本、删除缺省值较多字段
- 数据采样—下/上采样、保证样本均衡
- 工具—hive sql/spark sql、pandas
- 特征工程
这里只总结下特征预处理相