- 博客(8)
- 收藏
- 关注
原创 MindSpore社区活动:人脸的关键点检测
PFLD(Parallel Facial Landmark Detection)是一种基于深度学习的人脸实时关键点检测技术。它采用了并行的网络结构,可以在保持高精度的同时实现实时检测。其主要特点包括:1. 并行结构:PFLD网络采用了并行结构,将人脸图像分别输入到多个分支中进行处理,最后将不同分支的结果进行融合,从而提高了检测的准确性和速度。2. 多尺度特征融合:PFLD网络在不同层次上提取不同尺度的特征,并将这些特征进行融合,从而提高了对人脸不同部位的检测能力。
2023-08-23 22:57:47 159
原创 MindSpore社区活动:UNet-2D的图像分割
UNet-2D是一种用于图像分割的模型,它基于U形网络(UNet)结构,可以对二维图像进行像素级别的分割。UNet-2D的结构包括一个编码器和一个解码器,其中编码器用于提取图像的特征,解码器则将这些特征映射回原始图像的尺寸,并生成分割结果。UNet-2D的编码器部分采用了卷积神经网络(CNN)的结构,通过多层卷积和池化操作,将输入图像的特征逐渐提取出来。解码器部分则采用了反卷积和上采样的操作,将编码器提取的特征映射回原始图像的尺寸,并生成像素级别的分割结果。
2023-08-13 21:59:29 350 1
原创 MindSpore社区活动:Transformer也能图像分类
一 Vision Transformer模型结构Vision Transformer(ViT)是一种基于自注意力机制的图像分类模型,其结构主要由以下几个部分组成:1. 输入嵌入层(Input Embedding Layer):将输入的图像划分成若干个小块(patch),并将每个小块转换为一个向量表示。2. 位置编码层(Positional Encoding Layer):为每个输入嵌入向量添加位置编码,以便模型能够捕捉输入中的空间信息。
2023-07-30 23:22:23 144 1
原创 MindSpore社区活动:网络模型上的艺术
Pix2Pix的训练过程需要一组成对的图像,其中一个是输入图像,另一个是期望的输出图像。总的来说,Pix2Pix的实现原理是通过训练一个生成器和一个判别器,让生成器能够将输入的图像转换成目标图像,并且让判别器能够准确地判断输入图像是真实的还是生成的。生成器的目标是生成尽可能逼真的目标图像,而判别器的目标是尽可能准确地判断输入图像是真实的还是生成的。判别器的输入可以是真实图像或者生成器生成的图像,输出是一个二元值,表示输入图像是真实的还是生成的。生成器的输入是一张图像,输出是一张与之对应的目标图像。
2023-05-28 21:15:13 79
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人