肖屁屁-CSDN博客

原创 RoI Tanh-polar Transformer Network for Face Parsing in the Wild野外人脸解析的RoI(感兴趣区域) Tanh-polar Transf

RoI Tanh-polar Transformer Network for Face Parsing in the Wild野外人脸解析的RoI(感兴趣区域) Tanh-polar Transformer网络摘要人脸解析人脸解析的目的是预测图像中目标人脸的面部成分的像素级标签,现有的方法通常根据预处理(人脸检测模型：MTCNN （TensorFlow）SSD Face （Caffe）获得人脸的矩形框后，然后就要做人脸对齐（Face Alignment），因为原始图片中，人脸的姿态、位置可能..

2022-03-15 16:46:11 4675

原创 GIT A Generative Image-to-text Transformer for Vision and Language 论文笔记

同样也是微软家的），他们同样用Transformer架构的视觉编码器得到token然后送进类BERT的架构中进行文本生成任务，也同样随机初始化后面这个类BERT的架构（这个是有人做过实验说明随机初始化更好的）。Arxiv上Preprint的一篇微软的论文，结构比较简单，用Image Encoder先编码图像，然后图像和文本在一个类BERT的模型中训练，没有对视频做特别的优化，但在各个任务上都SOTA。中的seq2seq注意掩码，使得文本标记仅依赖于前面的标记和所有图像标记，并且图像标记可以彼此注意。

2023-12-03 14:58:37 1652 3

原创什么是指令微调？如何微调

然后，爸爸给小暗安排了一个任务，让他在动物园里找一种他从没见过的动物，叫斑马，并告诉了小暗有关于斑马的信息：“斑马有着马的轮廓，身上有像老虎一样的条纹，而且它像熊猫一样是黑白色的。与面向plm的指令不同，面向人的指令通常是一些人类可读的、描述性的、段落风格的特定于任务的文本信息，包括任务标题、类别、定义和需要避免的东西等。随着神经网络和预先训练好的语言模型的出现，（ii）。LMs的最终输入可以描述为x 0 = f (x)或f（x，I），即任务不可知的模板f（·）是必需的，但特定于任务的信息I是可选的。

2023-12-03 14:32:47 4341

原创 pyskl：hrnet+fastercnn+c3d

热图输出一共十七个关键点，每一个关键点一个channel，格式为（C，T，H，W）(N为设置的batch_size数32，T为设置的clip_len为32，即随机抽取32帧，H,W设置为56)，即（32，17，32，56，56）.Input：NCHW(17,32,56,56),(17个通道数，32帧，56x56的大小)，C3D训练使用3个stage，base_channel为32。对视频抽帧（使用decoder对视频进行均匀抽帧），检测视频帧中的人物，根据视频帧中的人物进行人体关键关键点的检测。

2023-11-04 18:58:04 2010 8

原创 GPT系列

在自然语言理解里面，有很多不一样的任务，虽然有很多大量没有标注的文本，但是标注好的文本文件还是太少了，这就使得要去从标注好的数据上训练出分辨模型的话，会比较难，因为数据太少了，作者提出解决方法，在未标注的数据里面训练一个语言模型，然后再在标注好的模型上面寻训练微调出一个分辨的微调模型，（与视觉方向不同的的是：使用未标注好的数据进行训练，然后再用标注好的数据进行微调）区别：之前的工作是在微调时候构造与任务相关的输入，从而使得只需要很少的架构就行，最早的词嵌入只是对词上面的一个学习。

2023-10-31 15:34:54 219

原创 Python 内存管理和垃圾回收

一旦提到垃圾回收机制就会关联到：引用计数器为主,标记清楚和分代回收为辅+缓存机制但是一旦问到如何实现？那么可能就不太好能回答清楚。

2023-10-28 14:46:47 115

原创 python开发(秋招)

用is和“==”去判断的区别？用is判断是判断两个对象在内存中的id 是否相等。用”==“判断的是两个值是否相等。d = {}print(d)Python中一切皆对象，对象引用的传递方式，单元测试相关的库：nose/pytes较为常用mock模块用来模拟替换网络请求等coverage统计测试的覆盖率return -1return midend = midelse:beg=midreturn -1'''如何设计测试用例：(等价类划分)正常值功能测试边界值（比如最大最小最左最右）

2023-10-24 11:27:53 122

原创 leecode3-6

一开始的思路是类似于冒泡排序，遍历每一项，如果等于0，则后面的元素，向前移动一位，然而遍历时候，for内的移动操作会影响初始的nums，所以测试用例【010】无法通过。思路：双指针，一个i指向首，一个j指向尾部，i++,j--,容器的宽为（j-i），如果hight[i]<hight[j],容器的高为hight[i],否则hight[j]官方思路：首先考虑使用去除重复项的集合作为哈希表，遍历集合中的每一个元素，并初始化最初的最大长度为1，如果有比当前元素大的元素存在，最大长度加1，，编写一个函数将所有。

2023-10-23 15:46:43 118

原创 3D医学影像数据处理

我们在数据预处理那一步的时候创建了三个U-Net配置：2D U-Net、对全分辨率图像进行操作的3D U-Net以及3D U-Net级联，其中级联的第一个U-Net在下采样图像中创建粗分割图，然后由第二个U-Net进行细化。位于nnUNet_raw_data_base的文件夹必须至少具有子文件夹nnUNet_raw_data，该子文件夹又为每个任务包含一个子文件夹。图像的统一命名格式case_identifier_XXXX.nii.gz，标签的统一命名格式case_identifier.nii.gz。

2023-09-11 16:17:49 1334

原创如何在Docker容器下进行模型的推理？

背景：是在ubuntu系统中联网的情况下安装docker：使用 apt 存储库安装在新主机上首次安装 Docker 引擎之前，需要设置 Docker 存储库。之后可以安装和更新存储库中的 Docker。===========================设置存储库===============================

2023-09-11 16:10:17 408

原创中文文本聚类

这里的算法大家常用的是K-means和DBSCAN,这两种算法用的最多,但是在高维空间里边K-means似乎并不是很好,究其原因是因为维度太高,簇与簇之间的距离太小了,如果直接去聚类,这一部分似乎效果不太好,这时候就需要用到主成成分分析PCA,大致的思路是大致意思就是取这个高维向量中方差最大的方向经过一些数学变换将有用的部分保留，没用的部分舍弃，这种办法同样适合分类算法中寻找最大的特征。DBSCAN算法的主要思想是，认为密度稠密的区域是一个聚类，各个聚类是被密度稀疏的区域划分开来的。

2023-08-30 10:51:42 2484

原创 GLM具有自回归的空白填充通用语言模型预训练

GLM具有自回归的空白填充通用语言模型预训练

2023-06-15 16:36:58 1165

原创 pytorch分布式训练笔记

pytorch分布式训练笔记

2022-08-22 10:54:58 956

原创 ONNX Runtime 部署:超分辨率demo

ONNX Runtime 部署:超分辨率demo

2022-08-22 09:54:11 1741

原创精读Swin Transformer

Swin Transformer:Hiaerarchical(层级式) VIsion Transformer using Shifted Windows(MSRA研究领域的黄埔军校)选自8.17号的更新版本摘要swintransformer用来做计算机视觉领域一个通用的骨干网络,在Vit只做分类任务,下游任务比如检测与分割留给以后的人来探索时,当时大家并不能确定transformer能否把视觉领域所有的任务都做掉,那么swintransformer的动机告诉大家transformer没毛病...

2022-03-09 18:58:06 1248 1

原创 Two-Stream Convolutional Networks for action Recognition in Video 视频理解领域的开山之作

Two-Stream Convolutional Networks for action Recognition in Video 视频理解领域的开山之作作者提出视频理解是一个非常有前景的工作,并且指出输入至网络的一定是视频,而不是网上的一张一张的图片,其实双流网络并不是第一篇将深度学习应用到视频分析中的,早在2014年在些的时候CVPR 有一篇叫做deep video 的文章已经用深度学习用在视频分类中了, 但是训练效果差强人意, 甚至还比手工特征的效果还差.文章结构:半页摘要半页..

2022-03-09 17:19:43 4083

qq_41106932的博客