- 数据来源
- 公司本身就有数据
- 合作过来的数据
- 购买的数据
- 开发过程
- 明确做什么问题–建立模型[根据数据类型]
- 数据的基本处理: pd去处理数据(缺失值,合并)
- 特征工程(对特征进行处理)【非常重要】
- 寻找合适的算法进行预测 模型:算法 + 数据
- 模型的评估,判定效果
- 上线使用, 以API形式提供
- 判断数据类型
- 离散型:在区间内不可再分,通常为整数。例如:人的数量
- 连续型:在区间可分,可以无限划分,通常为非整数,含有小数部分。例如:长度、时间、质量
- 根据数据类型选择合适的算法
比如一般来说目标值为离散型数据通常会作为分类算法的数据[猫狗的图像分类]
目标值连续型数据通常会作为回归型算法的数据[股票预测] - 机器学习算法分类
- 监督学习(预测):有特征值和目标值
1> 分类 K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
2> 回归 隐马尔可夫模型 - 无监督学习:只有目标值
聚类 k-means