一、深度学习与线性代数

新禾

已于 2024-08-15 17:54:38 修改

阅读量825

点赞数 17

分类专栏：深度学习线性代数文章标签：深度学习线性代数人工智能

于 2024-08-15 17:32:34 首次发布

本文链接：https://blog.csdn.net/qq_45083166/article/details/141227589

版权

深度学习同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

线性代数

1 篇文章 0 订阅

订阅专栏

一、深度学习与线性代数

在计算机的内存或硬盘中，数据通常是以字符集编码成0和1的形式进行存储的，读取时再以相同字符集进行解码进行显示的。然而在深度学习中，数据在内存或显存中的表示都是以向量的形式表示的。

1、字符在计算机中的表示

在我们所接触到的手机、电脑、电视所呈现的字符，其原理大概：就是存储在内存、硬盘中的0和1的数字被解码成字符再去映射到屏幕上。目前最常见的编码格式有：

ASCII：初代计算机采用的字符集。仅包含（大小写英文字母、数字、标点符号、控制字符等用8bit存储的128个字符）
GBK：国标扩展，是一套适用于中文的字符集。
Unicode：ISO组织提倡统一各民族语言数据集。但没有被广泛落实
UTF-8：可变长的编码格式，目前被各国广泛使用

以UTF-8为例。"中国"二字用utf-8进行编码为16进制的“\xe4\xb8\xad\xe5\x9b\xbd”，再将其转化为二进制就是“中国”二字在计算机里存在的形式了。

*"中国"**二字用utf-8进行编码

附：乱码问题

当我们再打开一个文件发现乱码：

乱码问题

原因：编码与解码字符集不一致所导致的，比如我们在计算机中是以utf-8字符集存储的，但在编辑其中以gbk的形式进行解码就会出现乱码现象，因为每个字符在不同字符集的存储形式并不一样（如图），所以我们要保证在编码和解码时要使用相同的数据集。 “中国”不同字符集的存储形式不同

2、深度学习-线性代数

2.1 深度学习

深度学习，通俗点讲就是让模型能够在所提供的数据中找到规律并能举一反三，

比如在计算机视觉中，你向模型提供很多猫的图片，让它能记住猫的特征，目的就是在推理中识别出那一张是猫。再比如在自然语言处理中，你向模型提供很多数据集进去，让他记住各词之间的关系，以便你向他输入一段话，他能输出一些相关的东西出来。

在中文中，我们都知道 “苹” 字后跟的只能是 “果” ，“葡” 字后跟的只能就是 “萄”。但是，模型不知道。 按照使用utf-8数据集，他能很容易的表示出 “苹” 和 “果” ，但他无法建立 “苹” 和 “果” 之间的关系、“葡” 和 “萄” 之间的关系…。为了能表示出他们之间的关系，我们就不能采用以数据存储为目标的编码解码规则。