1.监督和无监督学习
监督学习:对事物未知表现的预测(分类、回归)其中分类是离散已知数量的预测,回归是连续变量的预测。一般使用两种类型的目标变量:标称型和数值型。
无监督学习:对事物本身性质的分析(降维、聚类)
2.标称型和数值型数据
标称型:标称型目标变量的结果在有限目标集中取值,如真与假(标称型目标变量主要用于分类)
数值型:数值型目标变量可以从无限的数值集合中取值(数值型目标变量主要用于回归分析)
3.在监督学习中主要有两种数据分类方法:
- 将数据集分为三部分:训练集、验证集和测试集
- 将数据集分为两部分:训练集、测试集
验证集合测试集的区别:验证集主要是用来进一步确定模型中的参数(正则项系数、隐含层节点个数),而测试集主要是用来评估模型的精确度(泛化能力)。
对于第一种方法即首先用取得最小误差的验证集的参数取值模型作为所选的最佳模型,然后采用测试集对这个最佳模型进行评价。第二种方法直接对最小误差的测试集作为评价并不合理,因为这个模型本来就是最为满足的模型。