机器学习的数据

最新推荐文章于 2024-07-21 19:18:55 发布

DevGeek

最新推荐文章于 2024-07-21 19:18:55 发布

阅读量273

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/d8958/article/details/133213749

版权

数据

在这里插入图片描述

数据整体的信息
在这里插入图片描述

在这里插入图片描述

我们整个数据就可以表示成这样
在这里插入图片描述

上图中的数据整体叫数据集(data set)
图中每一行数据称为一个样本(sample)。
除最后一列，每一列表达样本的一个特征(feature)
最后一列称为标记（label）

在这里插入图片描述

除了第一行和最后一列以外的信息就是我们所需要的数据，通常数据我们用矩阵X来表示，最后一列的标记我们用y像两个来表示

X矩阵中第i个样本行写作 $X^{(i)}$ ，第i个样本第j个特征值 $X_{j}^{(i)}$ 。y向量中第i个样本的标记写作 $y^{(i)}$

每个样本的特征所组成的向量称为特征向量
在这里插入图片描述

我们通常表示向量都是用列向量的形式表示

在这里我们选择数据集中前两个特征的数据，并用可视化图表的形式表示出来，这两个特征所组成的是一个二维空间，样本中每个特征的值所组成的向量就代表该空间中的每个点，那么这个空间我们就称之为特征空间（feature space）

在这里插入图片描述

分类的本质就是在特征空间切分。当我们输入一个数据的时候，我们把它在特征空间中进行表示，然后根据新输入数据的落点区域去判断去花的种类
在这里插入图片描述

特别强掉的是，由于可视化的需要，所以很多时候我们把数据降到两维，因为通常对于一个数据而言都是具有非常多的特征的，比如上面的鸢尾花数据集中，其中就有四个特征，那么我们其实是在四维的空间中进行切分，那么这是无法可视化的，所以我们通常会采用降维的方式进行数据分类，最后我们再把低维空间得到的结论推广到高维空间，这在高维空间中都同理。

在机器学习的领域中特征可以是一个非常抽象的一个事物，比如下面这个图象识别数据集中的一个样本5，它是一个灰度图像，它的特征值相比于彩色图像特征少一点
在这里插入图片描述

在这里：

图象，每一个像素点都是特征
一个图像的特征的数目：比如28*28的图像有28*28=784个特征
如果是彩色图像则特征更多

在机器学习领域中，特征不都是有语义的，也有可能是非常抽象的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习的数据

机器学习中的数据
复制链接

扫一扫

DevGeek CSDN认证博客专家 CSDN认证企业博客

码龄5年

87: 原创

30万+: 周排名

5万+: 总排名

8万+: 访问

: 等级

1010: 积分

71: 粉丝

113: 获赞

8: 评论

226: 收藏

私信

关注

热门文章

分类专栏

最新评论

Conda虚拟环境创建与Python模块安装
Electric-V: 使用conda虚拟环境的必要性，很有道理！
python中的迭代器
shen_in_218: 那个返回值：< list_ iterator at 0x4f3aee0>太nice了呀，直接就跟c++续上了
C语言中的常量
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616916039?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
python字符串的常用方法（3-2）
CSDN-Ada助手: 非常感谢你的分享，这篇博客对我了解Python字符串的常用方法提供了帮助。希望你能继续创作，分享更多的技术知识。此外，我认为扩展知识和技能方面，可以掌握Python中的正则表达式，它可以帮助我们更高效地处理字符串。再次感谢你的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
Python字符串的常用方法(3-3)
CSDN-Ada助手: 恭喜您写了第三篇博客，标题为“Python字符串的常用方法(3-3)”，内容丰富，讲解清晰，让人受益匪浅。感谢您的分享，也期待您能够继续坚持创作，为大家带来更多优质的内容。在下一步的创作中，建议可以多涉及一些实际应用场景，结合实际案例进行讲解，这样可以更加深入浅出地帮助读者理解应用。再次感谢您的辛勤付出，期待您的更多精彩创作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DevGeek 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。