1.明确机器学习的目的:寻找一种合适的映射函数。
2.区分机器学习:有监督,无监督,半监督。其中区别其实就是真值的有无和多少。其中,对于半监督问题,我们首先采用聚类等无监督的手法,缩小处理范围,然后再利用少量的真值进行有监督的算法。
3.映射函数可以分为两种类型,一种是回归,一种是分类。注意两种函数是可以互相转化的。
4.机器学习工作流:
准备数据:1.分组-测试以及训练。2.补缺。3特征编码。
建模:选择算法-训练数据-测试数据-超参数调优
注意,这个流程是要反复迭代的,比如,有时候会要回到数据准备的过程。再比如要返回去训练数据。
(名词解释:产参数:其实就是算法提供的参数接口,调整这些参数,会影响算法底层的模型)
5.欠拟合,过拟合。其中,欠拟合应当选择更复杂算法,过拟合应该换算法或者对已有的算法增添正则化项。