- 博客(3)
- 收藏
- 关注
原创 英特尔 Extension for Transformers 实验
英特尔 Extension for Transformers 是英特尔推出的一个创新工具包,可基于英特尔架构平台,尤其是第四代英特尔至强可扩展处理器(代号 Sapphire Rapids,SPR)显著加速基于 Transformer 的大语言模型 (Large Language Model, LLM)。其主要特性包括:通过扩展 Hugging Face transformers API 和利用英特尔® Neural Compressor,为用户提供无缝的模型压缩体验;
2024-05-09 22:47:29
709
原创 图像卷积并行加速
图像卷积是一种常见的图像处理操作,用于应用各种滤波器和特征检测器。其原理可以简单地描述为在图像的每个像素上应用一个小的矩阵(通常称为卷积核或滤波器),并将卷积核中的元素与图像中对应位置的像素值相乘,然后将所有乘积的和作为结果。这个过程可以看作是对图像进行了平滑、锐化、边缘检测等操作。假设有⼀个大小为M×N的输入图像I和一个大小为m×n的卷积核K。图像卷积操作可以用下面的数学公式来表示:其中,S(i, j)是卷积操作的结果图像中位置(i, j)处的像素值。是图像中位置。
2023-12-01 19:43:30
72
原创 并行矩阵乘法
本项目主要利用oneAPI对矩阵乘法进行优化矩阵乘法的定义涉及到矩阵中元素的相乘与相加。对于两个矩阵A和B,它们的乘积C的第i行第j列的元素由以下公式给出:Cijk=1nAik⋅Bkj其中,n为矩阵的维度。该式的时间复杂度为O(n3),利用并行的思路,可以将其的时间复杂度减小。Intel SYCL库有着诸多优点,首先是其采用的单一源代码编程模型,使得在同一份代码中可以方便地描述和执行跨多个处理器架构的并行计算。
2023-12-01 19:41:45
270
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人