统计机器学习笔记1--AI背景概论，损失函数，风险，，，

本文链接：https://blog.csdn.net/Yeeyi_max/article/details/124972943

摘要

期末来临，平时没怎么整理，听得有些零碎。抽点时间把它从头到尾捋一遍，也方便写综合实验的论文。

文章目录

摘要
背景
总结

背景

Q1. 什么是统计机器学习？
人工智能和统计学习，机器学习是人工智能的核心。机器学习还包括很流行的深度学习。

人工智能（Artificial Intelligence）

定义：研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新兴技术科学。
理解：通过模块化人脑，将人脑的功能在机器上实现，做出识别、认知、分析与决策。比如通过实现机器听觉、机器视觉、运动控制、语音识别来是机器具有人类的各类中枢系统。
人工智能的三次浪潮：

其中，第一次浪潮是由于1957年罗森布莱特发明了感知机，可用于识别图片和文字。过了七年，约瑟夫建立了世界上第一个自然语言对话程序ELIZA，可以通过简单的模式匹配和对话规则与人聊天。在此期间，符号主义占主导地位。核心是知识表示、知识推理、知识运用。接着，由于计算机性能的不足和数据量的严重缺失，导致早期人工智能只能解决少数特定问题，易受干扰，这引发了AI的第一次低谷。80年代引起第二次世界浪潮，这是由于专家系统（是一个具有大量专门知识和经验的程序系统）以及人工神经网络带来了新进展。但由于知识量过多，总结困难，AI迅速进入第二次低谷，此时，台式电脑性能不断提升甚至超过了昂贵的LISP机，科研经费不断被削减。1997年5月11日，IBM的“深蓝”战胜了国际象棋冠军某某外国人，引发热议。直到2011年，多层神经网络为基础的深度学习大幅超越传统算法，被推广到多个应用领域。而后，AI逐渐转向机器人与人结合而成的增强型智能系统。

机器学习

Tom Mitchell（1998）这么概括机器学习：一个程序被认为能从经验 E 中学习，解决任务 T，达到性能度量值P，当且仅当，有了经验 E 后，经过 P 评判，程序在处理 T 时的性能有所提升。
分类：

有监督学习(Supervised)
观测数据中同时又有预测变量 $X_i$ 和响应变量 $Y_i$ 。例如：线性回归模型。
其中，当响应变量 $Y_i$ 为连续型（定量）变量时，称为回归；当响应变量 $Y_i$ 为定性型变量时，称为分类；
无监督学习(Unsupervised)
观测数据中，没有观测响应变量 $Y_i$ 的值。需通过预测变量内部所具有的特征或结构信息来预测Y。
半监督学习(Semi-Supervised)
观测数据中，存在少部分带有响应变量 $Y_i$ 的观测值。
强化学习 (Reinforcement)
略。

数学理解

目标：找到一个函数 $Y = f (x)$ ，用来进行预测和推断。
如何估计该函数：

模型：一般分为参数（Parametric）模型和非参数（Non-Parametric）模型。前者需要对模型实现做出一些关于数据的分布以及模型形式的假定，估计模型参数后得到模型。模型参数越多的模型，模型复杂度越高。
策略：损失函数（Loss Function）或风险函数（期望损失），用于评价模型的好坏。前者表示一次预测的好坏，后者表示平均意义下模型预测的好坏。
算法：确定模型的具体计算步骤。