why
把问题看成是从输入到输入的函数。则有些问题很难通过人类编特定程序解决,或者解决的算法资源消耗过大,如语音识别手写字识别等。因此想让计算机自己从数据中找出规律,并通过找出的规律来解决类似的新问题,而不是对问题让人来编写特定算法。
what
学习: 系统通过统计的方法提升自身性能的过程。
统计学习: 用计算机对给定数据构建模型,再用模型对数据进行分析(如找出数据之间关系)或预测。
How
基本假设:
1. X和Y具有联合概率分布(X和Y存在统计上的关系规律)
1. training data是从分布中iid抽取 的(从同一分不中采样出的,相互之间独立)
2. model 属于某函数的集合(假设空间)
因此在learning 中需要确定模型选择标准(策略)和与之对应的实现选择模型的算法。
所以统计学习由三部分构成: 策略,算法和模型空间。
x是某系统的(所研究问题的)输入,代表数据的特征,用随机变量表述; y是该系统输出。当training dataset格式是 <x,y> <script type="math/tex" id="MathJax-Element-4"> </script>时(即x上有label,right answer),叫做supervised learning;当输入的dataset没有label,则叫做unsupervised learning。
针对y的数据类型,supervised learning 又可分为1. regression (连续的实数) 2. classification (离散的类别)。unsupervised learning 是通过一系列决定来找出数据中的有趣结构,也叫做clustering。