机器学习-数据

我们管我们手里面的数据整体叫做数据集(data-set)

很有可能你手里的数据和你最终去机器学习的数据是不一样的,他们有可能是两个数据及,对于这一点我们在后面的课程中还会再强调的。那么对于一个数据集我们通常可以写成一个表格的形式。在这个数据中每一行数据成为一个样本(sample)

数据集除了种类这种,都表达了样本的特征(feature)

可以把一个特征都理解为一个属性。

对于我们数据集来说对于每一个样本都是由不同特征。我们要给人群来进行机器学习的任务,那么我们人群就有身高属性等等,每一个这样的属性。

通常在我们机器学习任务中,用大的X来表示属性。因为通常这一部分是一个矩阵。这个矩阵有多少行就说明我们有多少样本。


有多少列就说明我们有多少特征。通常吧第i个样本写作第i个样本第j个特征


最后一列是特殊的部分,称为标记(label)

使我们机器学习想要去真正学习的内容。换句话说对于我们机器学习而已真正的任务就是对于处理已知的数据,之后我们再给出任意一朵花的属性,我们的机器应该自动判断出来,它属于哪一种花。最后一列通常称为标记label

最后一列我们通常用小写的y来表示,在这里头之所以用小写的y是因为他是一个向量。这是我们在数学上经常用的表示方法,用大写字母表示矩阵,用小写字母表示向量。因为我们在数学推导中,是有可能在向量之间做加法,乘法。也有可能是矩阵之间做加法乘法,还有可能是向量,矩阵之间做乘法,为了清晰期间,让阅读者不要产生混淆,我们约定俗成的用大写字母表示矩阵,用小写字母表示向量。第i个样本的标记写作

每一行本身也组成了一个向量通常叫做特征向量

向量两种:行向量,列向量

通常会表示成列向量


红色代表一种花。,蓝色代表另一种


一个落在一侧,一个落在另一侧,分类任务本质就是特征空间切分

一条直线可能无法切分,或者可能有更好的切分方式

我们由于可视化的需要经常把特征降到两个或者一个来说明原理

实际上通常数据而言都是具有多个特征的,我们应该在高维空间,需要推广。在高维空间想问题不方便就在低维空间想,之后将地位空间结论推广到高维。

特征可以很抽象


对于图像识别,最简单的就是每一个像素点都看作特征,如果彩色回吧RGB排开,图像特征更多 

特征不仅仅可以具有语义的,可能非常抽象,可能最终和我们要完成的毫无关系

我们就是结合尽可能的信息,让机器找到我们最终得到的结果的关系,我们喂给机器的特征是什么样子的,将很大程序决定我们算法计算出来的结果的确切和可靠性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值