首先我们有一组医疗数据,以有无心脏疾病为标准记录各个患者的特征。
然后给出一名新患者的特征信息,判断他是否得心脏疾病。
接着我们要选出一种最合适的机器学习方法。然而方法有许多种,包括logistics regression(逻辑回归)、K-nearest neighbors(最近邻算法)、support vector machine(支持向量机、SVM)等等,我们该如何从中挑选?
Cross Validation(交叉验证)允许我们比较不同的机器学习方法,并且认识到它们在实践中的表现。
对于上述中收集到的医疗数据,我们需要做两件事情:
- 估算机器学习方法需要使用的参数(在机器学习的术语中被称为“