机器学习--解决一个结构化问题前的考虑因素，ML思考流程_评估是否应使用机器学习(ml)解决业务问题时应考虑的因素-CSDN博客

本文链接：https://blog.csdn.net/qq_39694857/article/details/118293532

数据是否可以获得，以下是数据获取的一些来源：
数据的标注成本
需要从人力，财力等方面去考虑
决定选择哪种学习方式
有监督的学习需要标注的数据作为先验经验。考虑是否可以选择半监督、无监督的学习方式，或者选择对偶学习。
数据预处理
数据预处理的任务主要包括数据清理、数据集成、数据归约、数据变换。

判断这个问题属于哪种问题，分类？结构化预测？回归？数据生成？知识获取？
然后决定选择哪种算法作为baseline。
如，二分类问题最好选择SVM作为baseline

通过评估方法得到测试结果
以上是分出测试集、验证集、训练集的方法。
通过性能度量评估性能优势
True negatives(TN): 被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数。　
accuracy = （TP+TN）/(P+N) 正确率越高，分类器越好
precision=TP/（TP+FP）表示被分为正例的示例中实际为正例的比例
recall=TP/(TP+FN) 度量有多个正例被分为正例

查准率高时，查全率往往偏低；查全率高时，查准率往往偏低。

F1=1/2(1/P+1/R) F1值越高性能越好

学习曲线是通过画出不同训练集大小时训练集和交叉验证的准确率。

此时注意模型是否出现了过拟合或者欠拟合。
ps：根据选择的算法选择对应的评价指标。如分类问题，SVM应该选择accuracy作为评估指标。

过拟合是指模型在训练数据拟合呈过当的情况，反应到评估指标上，就是模型在训练集上的表现很好，但在测试集和新数据上的表现很差。欠拟合指的是模型在训练和预测时都不好的情况。

泛化误差越小越好

训练集上：经验误差/训练误差
新样本上：泛化误差