统计学习:关于计算机基于数据构建概率统计模型进行预测分析的一门学科,也称统计机器学习(statistial machine learning)
特点:
以激素那几及网络为平台
以数据为研究对象
目的是对数据进行预测和分析
什么什么什么的交叉学科
统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。
统计学习的研究对象:数据
提取数据特征,抽象出数据模型,回到对 数据的分析和预测中去
基本假设;同类数据具有一定的统计规律
统计学习的目的
用于数据分析与预测
统计学习的方法
基于数据构建概率统计模型从而对数据进行预测与分析
统计学习由监督学习(supervised learning),无监督学习(unsupervised learning),强化学习(reinforcement learning)等组成
统计学习方法概括:
从给定的,有限的,用于学习的训练数据(training data)集合出发,假设数据是独立同分布的;
假设要学习的模型属于某个函数的集合,称为假设空间
应用于某个评价准则(evalution criterion),从假设空间中选取一个最优模型,使它对使它对已知的训练数据(training data)和未知的预测数据(test data)在给定的评
价下有最优的预测;
最优的模型的选取由算法实现
模型的假设空间,模型选择的准则,模型学习的算法 称为统计学习算法的三要素模型(model),策略(strategy),算法(algorithm)
实现统计学习方法的步骤:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即需欸的策略
(4)实现求解最优模型的算法,即学习的策略;
(5)通过学习算法选择最优模型
(6)利用学习的最优模型对新数据进行预测或分析。
监督学习方法:
分类,标注,回归问题(自然语言处理,信息检索文本挖掘)
统计学习的研究:
统计学习方法,统计学习理论,统计学习应用
统计学习的重要性:
处理海量数据,计算机智能化,计算机科学