深度学习-特征传递

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wait_for_eva/article/details/89578535

函数的计算

一元函数

f(x)=ax+b f(x) = ax + b

  • 求值:一次性计算
  • 求解:需要两组数值

多元函数

f(x,y)=ax+by+c f(x,y) = ax + by + c

感知机的特性,每次都是线性划分,即使多输入的情况,也决定了它是多元一次函数。

为了分离输入和特征值,我们可以这样描述多元函数。
F(x1,...,xn)=[x1,...,xn]×[w1...wn]+c F(x_1,...,x_n) = [x_1,...,x_n] \times \left[ \begin{matrix} w_1 \\ ... \\ w_n \end{matrix} \right] + c
通过矩阵的方式,可以泛化的对多元一次函数进行良好表示
F(X)=X×W+C F(X) = X \times W +C

多组函数

为什么要采用矩阵呢,你要知道,矩阵最大的用处就是提升运算的,然后才有的深入研究。
[x11x12x21x22]×[w11w12w21w22]=[x11×w11+x12×w21x12×w12+x12×w22x21×w11+x22×w21x21×w12+x22×w22][abcd] \left[\begin{matrix}x_{11}&x_{12}\\x_{21}&x_{22}\\ \end{matrix}\right] \times \left[\begin{matrix}w_{11}&w_{12}\\ w_{21}&w_{22}\\ \end{matrix}\right]= \left[\begin{matrix} x_{11} \times w_{11} + x_{12} \times w_{21} & x_{12} \times w_{12} + x_{12} \times w_{22} \\ x_{21} \times w_{11} + x_{22} \times w_{21} & x_{21} \times w_{12} + x_{22} \times w_{22} \\ \end{matrix}\right] \Rightarrow \left[\begin{matrix} a&b\\ c&d\end{matrix}\right]
它计算了什么呢?

  • 特征组

首先看W,不难看出来,这里其实是两组函数
[w11w12w21w22]={f1(x,y)=x×w11+y×w12f2(x,y)=x×w21+y×w22 \left[ \begin{matrix} w_{11}&w_{12}\\ w_{21}&w_{22} \end{matrix} \right]= \begin{cases} f_1(x, y) = x \times w_{11} + y \times w_{12} \\ f_2(x, y) = x \times w_{21} + y \times w_{22} \\ \end{cases}
换言之,对于特征组来说,也就相当于权重组,它是以列来进行区分的。

每一列,一个函数映射。

每一行,一组特征权重。

  • 输入组

每一行,一个样本。

每一列,一个特征。

  • 对照理解
  1. 每个人有很多的特征
  2. 每个特征散布很多人

由于计算的特点,矩阵的先后顺序是很重要的,而且两者行列对应。

按照列理解:

    • X:单样本多特征
    • W:单映射多权重

按照行理解

    • X:单特征多样本
    • W:单权重多映射

特征的抽取

基本特征

如何才算及格

f(scorer)={score60score<60 f(scorer) = \begin{cases} 及格&score \geq 60\\ 不及格&score\lt60 \end{cases}

假设我们只能衡量百分制,那我们需要衡量其他分制的情况的时候呢
f(x)=x÷radix×100 f(x) = x \div radix \times100
我们也就把原来的分值映射到了百分,从而就能够进行判断了。

单属性的判断,就是线性的换算,映射到能够判断的标准,对比出结论。

多种特征

标准关系:(80)×70%=(身高 -80) \times 70\% = 标准体重

健康对比:10%\left|\frac{标准体重 - 实际体重}{标准体重}\right| \leq 10\%

健康指数
fheath(high,weight)=1weight×10470×high5600 f_{heath}(high,weight) = \left| 1 - \frac{weight \times 10^4}{70 \times high - 5600} \right|
评判依据
htest(high,weight)={fheath10fheath>10 h_{test}(high, weight) = \begin{cases} 健康&f_{heath} \leq 10\\ 不健康&f_{heath} \gt 10 \end{cases}
说了半天,其实都只是这么一个效果:把基本的特征,映射到我们的标准,从而进行评判

很多时候,评判一个东西,的确是要从多方面进行衡量的,也正是对应了我们的多输入。

深度组合

如果说多元函数,是横向拓宽了我们的计算,显而易见的标志对应的是多输入。

好比门电路,双输入或多输入的与门,输入数量变多了,但是总的计算方法不变。

而结果再计算,进行深度的计算组合,加上层级的调度,就能够让基本的线性变得更圆滑。

思考一下,XOR不就是这样来的么。

找另一半,你有神马标准呢?

  • 健康(身高,体重)
  • 学识(教育,思维)
  • 呵护(物质,精神)

可以看到,我们的重重标准,是建立在基本的特征上面。

而基本的特征,又需要从更基本特征进行提取。

如此反复,直到不可再分,我么你才能建立一个标准,准确的进行衡量。

在这里插入图片描述
通过最基本的特征X,换算到对应的属性H,最后评判得出我们的结论。

使用矩阵进行表示的话,每一层就可以用一个字母进行表示,更专注于研究层级之间的关系了。

计算的网络

网络节点

每一步计算,就是一条线,两端的就是节点。

我们基本的单属性映射,也就是一元一次函数,就是这种类型。

X
Y

多点计算

a
b
c

一个结果或者特征的提取,很多时候需要多个基本特征进行组合

多层网络

在这里插入图片描述
这就是最常见的情况了。

哪怕就单纯的漂亮,肤质、保养、血型、父母…

很多特征,必须传达到最基本的不可再分,才能够准确的进行衡量。

自己的体会

特征的映射

愚蠢的人,总是习惯把别人拉入自己擅长的领域,然后以擅长的方法打败别人。

好像每个人都愚蠢呢,可能嘴巴不利索的人最愚蠢吧。

我们擅长,那就是坚持的理由。

计算机擅长计算,那就把问题转化为计算问题。

我们只会百分判断,那就全部转换为百分数。

我们只要帅哥美女,那就只去衡量漂亮与否,把基本特征给转化到我们熟悉的领域。

映射,就是把基础的特征,提取成我们所需要的,能够继续转换和评判的标准,让我们能够进行处理。

映射的特点

  • 特征提取

特征的提取,依赖于次级的基本属性。

可能单纯的依赖于其中一种,也可能依赖于多种。

这就是前面多元一次函数的具体含义,它就是一种特征转换。

  • 特征传递

要有三层楼阁,得有二层,得有一层,得有地基。

一个特征需要次一级的属性,不过越是抽象的特征,层级就越高。

从最终的判断特征到最基础属性,也就越深;每一级的特征传递,也就更复杂。

相邻层之间,仍然是线性关系;间隔层之间,逐渐脱离线性约束。

衡量的体系

  • 基础属性覆盖完整
  • 特征抽取没有偏差

满足这两点,我们就能建立起这么一个标准,去衡量,去评判,去预测,去分类。

不遗漏基础,注定输入增多。

不丢失关联,注定中间特征增多。

不错过细节,注定层级加深。

重点的转移

建立的体系,就好比这么一个关系
y=f(x) y = f(x)
知道了输入,就必定有一个输出。

只要参数足够精确合理,就能够得出正确的结果。

即使图像不够完整,我们在未显现的区域,也能够绘制。

然后关键的问题来了,我们如何得到这些参数,如何制造这个模型。

正如最小二乘法,通过数据,抓到了一次函数的模型建立方法。

我们的模型的"最小二乘法"呢,我们如何能够建立起来我们的堡垒呢。

不用气馁,虽然方法有待学习,但是不得不说前途一片大好。

  • 不用针对固定形式求解:因为基于线性组合传递,我们没有固定的表达式限制,不在意高次限制
  • 问题求解的准确和普适:适用于处理任何的输入/输出问题,不关心内在处理

也就是说,解决了模型的建立问题,我们将有待解决一切能够转化为数值计算的输入/输出问题。

只要结果是收敛的,我们就不存在任何的困难。

不过,还是正视一下目前的困境

  • 多少层
  • 多少特征
  • 参数几何
展开阅读全文

没有更多推荐了,返回首页