机器学习简介
- 机器学习是一种运用计算机算法和统计模型生成信息的数据分析方法
- 通常运用于解决分类预测等问题
- 建立在最小化损失函数(loss function)之上
- 设计目的主要是想相对简单地处理庞大的数据
- 伴随分析师那有限的超参数等输入
- 通常数据集会被分为一个训练集,一个测试集和/或检验集
- 或者还可以用到交叉验证cross- validation
- 经常被分为监督和无监督学习
- 但是,也有半监督和增强学习
分类:线性判别分析Linear Discriminant Analysis (LDA)习题
参考 James et al的练习题.
4. 分类(Classification)
第2题. 证明将观测值分类到(4.12)最大的类别就等价于将其分类到(4.13)最大值的类别总
解法:去除等式(4.12)中那些不依赖于k的项,取对数
混淆矩阵(The confusion matrix)
比如,假设在书里Stock Market 数据里利用K=3的KNN算法,其中2001年到2004年的数据作为训练集,2005年的数据作为测试集。我们将得到如下混淆矩阵: