《MLAPP》读书笔记
1.1 机器学习:它是什么?为什么是它?
We are drowning in information and starving for knowledge.
——John Naisbitt
随着信息技术的发展,我们开始步入大数据时代,人类每天都在产生大量的、各种各样的数据。以往统计学家所用的方法已经不适合用于大规模的数据分析,于是,机器学习来了。
机器学习在此书的定义为:一个自动发现数据里的模式并利用这些未被发现过的模式去预测未来数据的方法集合。
机器学习被划分为两个主要大类:监督学习(supervised learning)和非监督学习(unsupervised learning)。
监督学习的目标是找出自变量X到因变量Y之间的映射。
非监督学习的目标是找出数据中“有趣的模式”,有些时候又被称为“知识发掘”。
第三种机器学习是强化学习(reinforcement learning),它并没有广泛在实际中应用,它用于学习在给定特定的奖惩信号下如何行动和表现。
1.2 监督学习
(1)分类
分类的目标是通过学习产生一个从输入x到输出y的一个映射,这里,,其中C是类的数量,如果C=2,那么这个分类问题称为二分类,如果C>2,则被称为多类分类;如果类型标签不是相互独立的(比如某人可以被分为高的、壮的),我们称之为多标签分类。一种形式化这个问题的方式是将它作为函数逼近:我们假设作为目标真实函数,则学习的目标是给定带标签的数据,并能通过我们训练得到的函数做出正确的预测。当学习目标达到时,我们需要用未在训练过程中用到的标签数据对函数进行检测,看其是否能得到正确的输出,这个过程称为“泛化”。
实在受不了用图片写公式了,又不能把文章直接转到Markdown里继续写,先写到这里,后面的内容,用Markdown写...