《Learning From Data》第一章（一）

最新推荐文章于 2023-09-11 15:54:24 发布

baifanyanda

最新推荐文章于 2023-09-11 15:54:24 发布

阅读量5.4k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/baifanyanda/article/details/49097199

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

对本书进行了几天的学习，每个章节内容比较长，偏于理论，对于机器学习初学者掌握其中的内容非常重要，只是理解起来比较困难，第一章分为两部分进行学习。

1 The Learning Problem

 1.1. Problem Setup
       1.1.1. Components of Learning
       1.1.2 A Simple Learning Model
       1.1.3 Learning versus Design
 1.2 Type of Learning
       1.2.1 Supervised Learning
       1.2.2 Reingorcement Learning
       1.2.3 Unspervised Learning 
       1.2.4 Other Views of Learning

对于学习的定义，作者举例孩童对树的认识，我们看到过树，然后知道这是树，当我们再次看到其他的树时，我们会准确的辨别出这是一棵树，这就相当于我们在数据中进行学习。
1.1 Problem setup
著名DVD租赁公司Netflix举行一个竞赛，提高公司的推荐性能，每提高%10，奖励100百万美元

用户评价系统模型
上图是一个简单的用户推荐系统，每个电影都有自己的关键词，比如电影类型是喜剧片，动作片还是爱情片？有没有帅气的明星（汤姆克鲁斯啊，宝强啊）。。。。等等等，这些影片特征我们可以看做输入，客户对其相应输入进行打分，比如喜欢动作片，那么动作片这一项的分数相应高些，比如你觉得宝强比阿汤哥帅，那么宝强项分数会高一些，阿汤哥的分数会小。这样就构成了一个简单的评价系统
1.1.1. Components of Learning
既然要学习，就必然有“教材”，所以我们需要输入元素x（影片的特征，申请信用卡用户信息等），有了原因就要有结果，所以这里还有输出y（影片分数，是否申请成功等），我们学习的目的要智能自动发现数据的规律，在现有的数据中发现这样的规律，所以需要学习得到目标函数f：X->Y（X为输入集合，Y为输出集合），输入数据集合D：（ $x_1,y_1$ ）,（ $x_2,y_2$ ）….,（ $x_N,y_N$ ），目标函数符合 $y_n=f(x_n)$ ，其中n=1,2，…，N，但是目标函数是未知的，此时我们需要在已知的数据D中学习得到g:X->Y来近似目标函数f，g由候选函数集中选取，成为假设集合H，我们在H中找到能够拟合数据。在新的数据输入时，可以用g代替目标函数f拟合数据，下图为学习流程图：

学习过程

1.1.2 A Simple Learning Model
感知器算法：假设 $X=R^d$ ，其中 $R^d$ 为d维欧式空间，输出为Y={-1，+1}，比如信用卡申请系统 $X=R^d$ 为输入向量（薪水，居住年限，又无外债以及其他申请信息），我们在假设集合中选取一个假设 $h \in H$ ，函数h(x)针对不同x选取不同权重：
If 申请成功： $\sum_i_=_1^d w_ix_i>threshold$
If 申请失败： $\sum_i_=_1^d w_ix_i<threshold$
假设函数为：
h(x)=sign(( $\sum_i_=_1^d w_ix_i$ )+b) （1）
令 $w_0$ =b，故权值向量w=[ $w_0$ , $w_1$ ,…, $w_d$ $]^T$ ， $x_0$ =1，式（1）改成：
h(x)=sign( $w^T$ x) (2).
感知器学习算法目标由数据通过迭代方法得到合适的权值向量w。假设当前权值矩阵为w(t),t=0,1,2…..,如果样本分类错误，y(t)!=sign( $w^T$ (t)x(t))，则进行更新：
w(t+1)=w(t)+y(t)x(t) (3)