- 统计学习总览
李航的《统计学习方法》绝对是干货十足的书,可惜实在是太干了,字字珠玑,几乎每段话都能当作笔记进行整理。读起来仿佛在吃加强版的压缩饼干,虽然能量十足但未免太难吃了。
根据文中内容,现在的机器学习,狭义上就是指代统计机器学习。
统计学习是数据驱动,从数据中学习概率统计模型,然后利用模型对新数据进行分析和预测。
统计学习关于数据的基本假设——同类数据具有一定的统计规律。以随机变量(组)描述数据特征,以概率分布描述数据的统计规律。
统计学习的目的是——寻找什么样的模型,怎么学习这个模型,以及学习这个模型的效率。从而对数据进行分析和预测。
统计学习基本步骤——数据假设、模型假设、策略选择、优化求解、选择模型、应用模型。
数据——独立同分布。
模型(参数空间、复杂度)——所有可能模型集合,假设空间(输入=>模型=>输出,一种映射,如条件概率或决策函数)。
策略(损失函数、风险函数、经验函数)——确定模型选择的准则(最大似然,最小二乘拟合)。
算法(优化问题)——实现策略的方法(直接求解,迭代求解,梯度下降)。
输入实例=>特征向量、输入输出对=>样本。
通过训练误差。测试误差来评估模型——欠拟合和过拟合,偏倚方差两难问题。