1、什么是机器学习?
(1)、Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。
(2)、Tom。一个程序被认为能从
经验E中学习,解决
任务T,达到
性能度量值P,当且仅当,
有了经验E后,经过P评判,程序在处理T 时的性能有所提升。
(3)、作者认为经验e 就是程序上万次的自我练习的经验,而任务t 就是下棋。性能度量值p呢,就是它在与一些新的对手比赛时,赢得比赛的概率。
2、机器学习的算法主要分为有监督学习和无监督学习:
(1)、监督学习:我们将教计算机如何去完成任务,可以看出,监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。我们给定数据集中每个样本的正确输出,然后运用学习算法,算出更多的正确输出。用术语来讲,这叫做
回归问题。我们试着推测出一个连续值的结果。
(2)、无监督学习中,我们打算让它自己进行学习,已知的数据没有任何标签或者是相同的标签,针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做
聚类算法。
3、分类问题:预测出的结果是离散值。目标是预测出连续的输出值
回归问题:预测出的结果是连续值。目标是预测出一串连续的输出值
4、处理无限多个特征,甚至怎么存储这些特 征都存在问题,你电脑的内存肯定不够用。 我们以后会讲一个算法,叫
支持向量机,里面有 一个巧妙的数学技巧,能让计算机处理无限多个特征。
5、线性回归算法:
6、在监督学习中,
m 代表训练集中实例的数量
x 代表特征/输入变量,输入的实例个数
y 代表目标变量/输出变量输出的实例个数
(x,y) 代表训练集中的实例
(x(i), y(i)) 代表第 i 个观察实例,即第i个样本
h 代表学习算法的解决方案或函数也称为假设( hypothesis)
7、监督学习的工作方式:
把训练集给习算法,学习算法工作后,输出一个函数,通常表示为小写 h表示。h 代表 hypothesis(假设),h 表示一个函数,因此h根据输入的 x 值来得出 y 值,y 值。因此,h是一个x 到 y 的函数映射。因为只有一个特征/输入变量,所以这样的变量也叫
单线性回归问题:预测y是x的线性函数。