1、统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。
2、监督学习是指从标注数据中学习预测模型的机器学习问题。无监督学习是指从无标注数据中学习预测模型的机器学习问题。
3、强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。本质是学习最优的序贯决策。
4、决策树、朴素贝叶斯、隐马尔科夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分析、高斯混合模型是概率模型。
5、感知机、支持向量机、k邻近、AdaBoost、k均值、潜在语义分析以及神经网络是非概率模型。
6、逻辑斯蒂回归既可以看作概率模型,也可以看作非概率模型。
7、感知机、线性支持向量机、k邻近、k均值、潜在语义分析是线性模型。
8、核函数支持向量机、AdaBoost、神经网络是非线性模型。
9、感知机、朴素贝叶斯、逻辑斯蒂回归、k均值、高斯混合模型是参数化模型。
10、决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分析是非参数化模型。
11、参数化模型适合问题简单的情况,现实中问题往往比较复杂,非参数化模型更为有效。
12、理论上,损失函数值越小,模型就越好。损失函数包括0-1损失函数,平方损失函数,绝对损失函数,对数损失函数等。
13、风险损失函数(期望损失)是模型理论上的平均意义下的损失。
14、正则化和交叉验证都是对模型的方法进行评估和选择的方式。
15、二分类问题评价指标
TP | TN |
FP | FN |
Precision = TP/TP+FP
Recall = TP/TP+FN
F1-value = 2TP/2TP+FP+FN