Qualcomm
平丘月初
这个作者很懒,什么都没留下…
展开
-
Faster Transformer
Faster Transformer是一个BERT Transformer单层前向计算的高效实现。底层由CUDA和cuBLAS实现,支持FP16和FP32两种计算模式,其中FP16可以充分利用Volta和Turing架构GPU上的Tensor Core计算单元。Faster Transformer共接收4个输入参数,首先是attention head的数量以及每个head的维度。这两个参数是决定Transformer网络结构的关键参数。其余两个参数是batch size和句子最大长度。原创 2022-10-04 19:53:49 · 1156 阅读 · 0 评论 -
高通SNPE
DL Container Loader: SNPE使用后缀为dlc的模型文件,提供了模型load函数。Model Validation: 检查输入模型与所选择的运行后端是否合法。Runtime Engine: 选择运行模式的API,包括CPU,GPU,DSP和AIP四种运行模式。Partitioning Logic: 模型处理API,包括检查网络layer的合法性,调度网络的runtime。CPU Runtime:CPU运行模型,支持32-bit和8-bit量化模型。GPU Runtime:GPU原创 2021-11-09 11:46:46 · 2840 阅读 · 2 评论