神经网络的数学原理——张量运算、梯度下降

最新推荐文章于 2024-05-05 23:45:16 发布

guotianqing

最新推荐文章于 2024-05-05 23:45:16 发布

阅读量1.3k

点赞数 1

分类专栏：人工智能文章标签：神经网络张量运算梯度下降

本文链接：https://blog.csdn.net/guotianqing/article/details/109899003

版权

人工智能专栏收录该内容

19 篇文章 5 订阅

订阅专栏

张量

神经网络使用的数据经常是存储在Numpy数组中，也称为张量。

一般来说，当前所有机器学习系统都使用张量作为基本数据结构。

张量这一概念的核心在于，它是一个数据容器。它包含的数据几乎总是数值数据，因此它是数字的容器。

矩阵是二维张量，张量是矩阵向任意维度的推广，张量的维度通常也叫做轴。

常用的张量数据如下：

标量（0D张量）：仅包含一个数字的张量。
- 在Numpy中，一个float32或float64的数字就是一个标量张量
- 可以使用ndim属性查看一个Numpy张量的轴的个数
- 标量张量有0个轴，张量轴的个数也叫做阶
向量（1D张量）：数字组成的数组。
- 一维张量只有一个轴
矩阵（2D张量）：向量组成的数组。
- 矩阵有2个轴，通常叫做行和列
- 可以将矩阵直观地理解为数字组成的矩形网络
3D张量及更高维张量
- 将多个矩阵合成一个新的数组，可以得到一个3D张量
- 可以将它直观地理解为数字组成的立方体
- 将多个3D张量组合成新数组，可以创建4D张量。以此类推可以构建更高维张量。
- 深度学习一般处理0-4D张量，但处理视频数据时可能会遇到5D张量

以上张量的代码示例：

import numpy as np

x = np.array(12)
x.ndim # 标量，即0维张量

x = np.array([2,4,6,8,9]) # 该向量有5个元素，即5D向量，此处的维度表示沿着某个轴上的元素个数
x.ndim # 向量，即1维张量

x = np.array([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9]]) # 矩阵是由向量组成的数组
x.ndim # 矩阵，即2维张量

x = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]], 
              [[1, 2, 3], [4, 5, 6], [7, 8, 9]],
              [[1, 2, 3], [4, 5, 6], [7, 8, 9]]]) # 3D张量是由矩阵组成的数组
x.ndim # 3D张量

张量的三个关键属性：

轴的个数（阶）：3D张量有3个轴，矩阵有2个轴。
形状：是个整数元组，表示张量沿每个轴的维度大小（元素个数）
- 如前面矩阵的形状为（3，3），3D张量的形状为（3，3，3），向量的形状为（5，），标量的形状为空（）
数据类型：张量中所停含数据的类型，如float32, float64, uint8等
- 注意，在极少数情况下，可能会遇到char张量，但Numpy中不存在字符串张量，张量存储在预先分配的连续内存段中，而字符串长度可变，无法存储。

张量操作

常用的操作是选择张量的特定元素，即张量切片。

以Numpy为例，操作张量的方法如下：

my_slice = train_images[10:100] # 假设train_images为mnist数据集
print(my_slice.shape) # 取出的是原数据集中从第10到第100个元素，不包括第100个元素

# (90, 28, 28)

my_slice = train_images[:, 14:, 14:]
# 选出所有图像右下角14*14像素区域

my_slice = train_images[:, 7:-7, 7:-7]
# 选出图像中心14*14像素区域

通常，深度学习中所有数据张量的第一个轴为样本轴。

深度学习模型不会同时处理整个数据集，而是将数据拆分成小批量，如：

batch = train_images[:128] # 第一个批量
batch = train_images[128:256] # 第二个批量
batch = train_images[128*n:128*(n+1)] # 第n个批量

常用的张量数据如下：

向量数据：2D张量，形状为（samples, features），如人口统计数据，文本文档数据集
时间序列数据或序列数据：3D张量，形状为（samples, timestamps, features），如股票数据集，推文数据集
图像：4D张量，形状为（samples, height, width, channels）或（samples, channels, height, width），如图像数据
视频：5D张量，形状为（samples, frames, height, width, channels）或（samples, frames, channels, height, width），如视频数据