intel培训-3 FPGA

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/L1558198727/article/details/100113090

免费的数据集

NNIST

0-9 的手写体
28*28
测试功能

CIFAR-10

10个类别
50000张图片
32*32

imageNet

可以实用级别

1000个类别
224*224
120万张训练图像
50000张验证图片
100000张验证图片

网络

AlexNet

ImageNet分类比赛
图片识别率由之前的不过一半到接近80%
卷积神经网络开始得到重视
2017年 识别的错误率在2% 精度超过人类

Net

互连的拓扑结构
Rg:
AlexNet 
googleNet

框架

一个“操作系统” 
一个函数库 
子程序的集合

提供卷积运算

tf
Caffe

深度学习的基元库

特定于低级别的加速器的库
如 cIDNN MKL DLA cuDNN

FPGA

现场可编程门阵列

数电: 0 1 加减法 乘除法 

为了解决
设计电路过于复杂

最早的可编程器件(PRD):可以实现简单的可编程
一个窗口 一个编程器 用紫外线照射芯片 在紫外线的照射下可以擦除之前的痕迹

FPGA:
不需要取下芯片 现场可编程
逻辑单元 数百万的
存储器块
特殊功能的应用




FPAG基本单元查找表

基本单元
四输入查找表

四个信号
一个信号的输出 
一个逻辑单元可以实现

一个bit的(全加)加减
16个逻辑单元
实现简单的操作系统:
8086(最早的)
80286
80386

FPGA内存块

存储器块
大小不一
读写方式不同:可以两套读写方式

FPGA DSP模块

硬件的
乘累加的模块
节省逻辑单元
速度快

可以量化不同的精度的运算

FPGA 可配置路由

自定义数据路径
可以直接连接至定制或者标准IO接口

FPGA IO和接口

硬核内存控制器
支持连接片外内存(HBM,HMC,..

英特尔的FPGA产品

MAX Cyclone Arria Stratix
从左至又速度变高 成本变高

采用FPGA定制的硬件所具备的优势

高效处理
精细化处理
低功效
灵活的芯片
支持重新配置
加快上市速度
多种可用I/O标准

FPGA和人工智能的关系

支持灵活控制数据路径

确定的低延时对推理至关重要:汽车自动驾驶
人的反应时间0.25秒

GPU:单指令多数据 装满显存一次执行
数据的延迟很高 吞吐率高 但是运行速度快

提供确定性系统延迟
I/O延迟 + 计算延迟

CPU:
延迟不确定
多任务,中断之类

支持灵活的任意架构:
努力提高网络开发效率 以消除GPU局限性
批处理
降低位宽
稀疏权重
稀疏激活

实现卷积CNN的要求

高吞吐率

多次浮点乘积累加运算 

高带宽本都存储,以存储过滤数据以及部分之和

支持不同的拓扑问题的灵活性

压缩算法

H.2265(HEVC) 
H.264(AVL)
MPEG-2

开源计算机视觉库(OpenCV)

2500 多个算法与函数
C++ python*  java* matlab*接口
使用经过优化的C/C++ 编写 支持OpenCL*
展开阅读全文

没有更多推荐了,返回首页