机器学习
机器学习是一种能从数据中学习的算法。然而,所谓的“学习”如何理解?即机器学习的具体定义是什么?1997年,Mitchell给出了一个简洁的定义:
A computer program is said to LEARN from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with expericence E.
即:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。
任务T有很多类型:分类、回归、翻译、异常检测、去噪、合成和采样等等。
性能度量P:评估学习算法的能力,通常度量模型的准确率或者错误率进行评估。
经验E:正是根据学习过程中的不同经验,可以将机器学习分为监督学习非监督学习、半监督学习、强化学习、弱监督学习等算法。
机器学习本质上属于统计学,更多关注如何用计算机统计地估计复杂函数,主要也有两种统计方法:频率派估计和贝叶斯推断。大部分机器学习可以分为监督学习和非监督学习。但是具体再细化可以还有其他类别学习方式。
机器学习中根据学习的方式不同可以主要可以细分为:
- 监督学习(Supervised Learning)
- 半监督学习(Semi-Supervised Learning)
- 非监督学习(Unsupervised Learning)
- 强化学习(Reinforcement Learning)
- 弱监督学习(Weakly Supervised Learning)
监督学习
训练含有很多特征的数据集,不过数据集中的样本都有一个标签或者目标。
数据: ( x , y ) (x, y) (x,