010-机器学习背后的思维-针对入门小白的概念算法及工具的朴素思考

5 机器学习第二步

在第一步中,我们已经设计好一个函数映射的集合, 接下来,我们要确定一个在 函数集合中挑选最佳函数的挑选准则。

5.1 技术术语

每门学科的建立, 为了显得与其它学科的不同, 甚至让普通人听到后有些神秘 感, 通常会对已有概念再起个别名。 就像江湖黑话一样, 捕快叫条子, 富二代叫小 开。 圈子里的人知道是啥意思,入行的人刚开始一听,一脸懵。

• 数字化:这里的数字化其实就是离散化。对于真实世界的输入或输入数据, 为 了能够让计算机处理,要对其做数字化。对于已经有数字意义的事物, 可以直 接用这些数字。 比如, 房子的面积 120 平米, 工资 6300 元。 还有一些要专门 定义的东西,比如, 色彩的RGB表示方法。 红色可用三个实数表示(255,0, 0), 绿色用(0,255,0)来表示。

数字化的问题有时会涉及一个物理学问题。 数字化的世界其实是离散的世界。 但是,我们日常生活中的温度、长度、重量等量都是模拟的, 也就是说,它们 是连续变化的值。那么, 是不是离散化的世界是现实世界的一个类似马赛克的 近似呢? 你可以仔细地想一想这个问题。我就不在这儿啰嗦了。 1

特征与标签:其实就是系统的输入与输出。 特征(Feature)是我们能够收集到 的输入。 标签(Label)是我们用来表示想要的输出结果。 特征的输入属性会 决定机器学习的场景, 而输出的标签是任务划分的依据。

数学符号化:为了显得我们是认真对待这几个术语,通常会用数学符号来重写一遍,这样就更显得专业和与众不同。特征用 x x x来表示,标签通常用 y y y来表示。这就和我们中学的函数表达式 y = f ( x ) y=f(x) y=f(x)对应起来。

前面我们说过,因为输入数据的样子五花八门,所以,我们不得不把符号也要相应地搞复杂一点。假设你有一个输入数据集合,集合里存放的是采样得到数据。集合里的每一个元素被称为「一个数据样本」或「一笔数据 Example」。\footnote{ 这里我没有用 Sample 这个词,个人感觉 Example 更准确一点。} 例如,如果是图片数据集合,每一个样本(每笔数据)就是一张照片。如果是房屋信息,可能每一个样本里包括多个分量值。我们先从最简单的说起,如果集合中只有 1 笔输入数据样本,且用 1 个实数值表示,直接用小写 x x x表示。如果输入数据集里有 2 笔输入数据样本,那么记作 x ( 1 ) , x ( 2 ) x^{(1)}, x^{(2)} x(1),x(2),注意,这里的上标表示第几个输入数据,不是数学意义上的平方或指数的意思。如果对于一个输入数据 x x x,其还有 2 个分量的,那么我们用下标表示,例如 x 1 , x 2 x_1,x_2 x1,x2。举个例子,要估算一套房子的价格,输入数据是房屋的面积和卧室个数。比如说 120 平米,3 个卧室。那么可以定义 x 1 = 120 , x 2 = 3 x_1=120, x_2=3 x1=120,x2=3。如果输入数据集中有多套房子(多笔数据Examples),可进一步用上下标来限定第一个输入数据 x 1 ( 1 ) = 120 , x 2 ( 1 ) = 3 x_1^{(1)}=120,x_2^{(1)}=3 x1(1)=120,x2(1)=3。输出数据也一样,不过用 y y y来表示。 y ( 1 ) , y ( 2 ) y^{(1)}, y^{(2)} y(1),y(2)表示与对应的第1 个输入数据,和第 2 个输入数据相对应的输出值。而 y ^ ( 1 ) , y ^ ( 2 ) \widehat{y}^{(1)},\widehat{y}^{(2)} y (1),y (2)表示第1 个输出和第 2 个输出的估计值。接下来,我们来解释一下它们怎么来的。

011-机器学习背后的思维-针对入门小白的概念算法及工具的朴素思考

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值