机器学习一——初探ML


参考书籍:《机器学习:算法原理与编程实践》郑捷著

对象与维度

在面向对象程序设计中,对象就是一个类的实例。在机器学习中,对象与之类似。
对象指含有一组特征的行向量。

实例种属重量(平均)颜色生命周期
非洲象动物5t土灰色70年
大白鲨动物3.2t灰白色70年
苹果植物250g红色5~15天
植物300g黄色5~10天

如上表所示,第一行表示特征名称,所有特征组合在一起构成特征向量。为了区分线性代数中的特征值和特征向量,引入了对象这一名称。每一对象对应表中的一行数据(行向量),行向量的数量即是对象的维度。

向量化

  • 在实际计算中,除非特殊情况,特征名称不需要列明。通过一些转换,将表中的数据数字化,转换成矩阵的表示方式。
  • 图片数据集整张图被当做一行货一个对象,所以维度都比较高。
  • 文本类数据集需要先构造(Big-of-words)词袋列表,将每个词出现的词频数值化。再利用词袋列表分别将文本向量化,其中0表示该词没有出现过,1表示出现过一次,n表示出现过n次。

矩阵

对象是表中的元素,表是对象的集合。

  • 矩阵是具有相同特征和维度的对象的集合,表现为一张二维数据表。
  • 一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。
  • 矩阵中的对象既相互独立又相互联系
  • 矩阵空间应具有完整性,即能反映出事物的空间形式或变化。

分类、聚类和回归

  • 分类或聚类可以看作根据对象特征的相似性与差异性,对空间矩阵的一种划分。
  • 预测与回归可以看作根据对象在某种序列(时间)上的相关性,变现为特征取值变化的一种趋势。

矩阵的用途

  • 解线性方程组:二维矩阵可以看作平面直角坐标系中的点,通过计算点间的距离,完成聚类、分类或预测。
  • 方程降次:利用矩阵的二次型,通过升维将线性不可分的数据集映射到高维中,转换为线性可分。这也是支持向量机的基本原理之一
  • 变换:矩阵可以通过特征值和特征向量完成维度约简,简化图片数据集这种高维数据集的运算,主成分分析使用的就是这个原理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值