- 博客(52)
- 收藏
- 关注
原创 CLIP,Context
在基准测试中表现良好的模型在压力测试中的表现令人失望,1,2,3,4 对计算机视觉的整个深度学习方法产生了怀疑。的“零样本”功能这是一个关键变化:通过不直接针对基准进行优化,我们表明它变得更具代表性:我们的系统缩小了高达 75% 的“鲁棒性差距”,同时在 ImageNet 零镜头上匹配原始。我们提出了一个旨在解决这些问题的神经网络:它在各种图像上进行训练,并接受互联网上大量提供的各种。尽管深度学习彻底改变了计算机视觉,但当前的方法存在几个主要问题:典型的。,而无需直接优化基准的性能,类似于。
2023-05-20 05:16:51
166
原创 ChatGLM-6B
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于架构,具有62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需6GB 显存ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的。
2023-05-20 04:23:58
349
1
原创 TensorRT
图形处理单元(GPU)上高性能推理c++库。它旨在与T以及MXNet等训练框架以互补的方式进行工作,专门致力于在GPU上快速有效地进行网络推理。如今现有的一些训练框架(例如TensorFlow)已经集成了TensorRT,因此可以将其用于加速框架中的推理。另外,TensorRT可以作为用户应用程序中的库,它包括用于从Caffe,ONNX或TensorFlow导入现有模型的解析器,以及用于以编程方式(C++或Python API)构建模型。
2023-05-20 04:20:05
111
1
原创 VisualGLM简介 - 多模态理解
目前VisulaGLM未开放对应的技术论文,但可参考microsoft的多模态技术方案。,该方案也是支持text和image两个模态数据的输入,输出回答文本内容。ChatGLM-6B 的多模态对话模型 VisualGLM-近期,智谱AI 和清华大学 KEG 实验室开源了基于。,但是目前还没有能够理解图像的中文开源对话模型。GPT-4 样例,展现出令人印象深刻的。当前该开源方案由于数据量、模型参数量、等限制,方案存在的一些局限性。224*224的分辨率。
2023-05-19 05:23:17
855
1
原创 高斯噪声(gauss noise)
高斯噪声(gauss noise)也是数字图像的一个常见噪声。其中有means(平均值)和sigma(标准方差)两个参数。椒盐噪声相似(Salt And Pepper Noise)可以很简单的得到其计算方法,高斯噪声的概率密度服从高。,高斯噪声与其相反,是几乎每个点上都出现噪声、有好几种方法,比如最基本的一个方法是使用。服从高斯分布(即正态分布)的一类噪声。另一个更加快捷的方法是。除此之外还有其他更加高效的方法,Box-Muller变换。噪点深度基本固定的噪声。ziggurat算法。
2023-05-19 05:06:27
4583
1
原创 数据并行怎样影响计算效率呢?难道数据并行不是需要每张 GPU,都有大 batch 才能保持高效吗?
中,对可用于数据并行训练的有效通信带宽,具有重要意义。流水线阶段中的每个节点,都可以与其对应的数据并行节点,并行通信,有效的通信带宽与流水线阶段数成正比。通过设置64个并行流水线,有。,与其它流水线并行进行。实际上,在高端 GPU 集群中常见的,完全连接的。的带宽的 64 倍。流水线并行带给数据并行,如此大的有效带宽,使。每张GPU上的有效 batch 大小。,即使在小 batch 下,仍可以。,可以让流水线每个阶段的数据。并行节点之间的独立进行通信。h 情况下,实现高效扩展。跨节点使用流水线并行性。
2023-05-19 05:01:59
241
1
原创 AdaIN(adaptive instance normalization)自适应实例规范化
我们虽然在中改进了传统的神经风格迁移,但是仍然只能使用训练所得的固定数量的风格。因此我们要学习另一种允许实时任意风格迁移的神经网络模型,获得更多创意选择。
2023-05-19 04:57:50
1015
1
原创 生成性对抗网络(GAN) 和styleGan
生成性对抗网络(GAN)是机器学习中一个相对较新的概念,于2014年首次引入。他们的目标是合成与真实图像无法区分的人工样本,如图像。GAN应用程序的一个常见示例是通过从名人面孔数据集学习来生成人造人脸图像。随着时间的推移,GAN图像变得更加逼真,但其主要挑战之一是控制其输出,即改变人脸图像中的特定特征,如姿势、脸型和发型。NVIDIA的一篇新论文,一种基于样式的GAN的生成器体系结构(StyleGAN),提出了一种解决这一挑战的新模型。
2023-05-19 04:44:37
702
1
原创 Diffusion Model2
首先我们来看一下最近火爆各个公众号的text-to-image结果:diffusion model和其他模型最大的区别是它的latent code(z)和原图是同尺寸大小的,当然最近也有基于压缩的latent diffusion model[5],不过是后话了。一句话概括diffusion model,即存在一系列高斯噪声( T 轮),将输入图片 x0 变为纯高斯噪声 xT。而我们的模型则负责将 xT 复原回图片 x0。
2023-05-18 23:27:53
144
1
原创 CLIP(对比语言-图像预训练)Contrastive Language-Image Pre-Training
CLIP(对比语言-图像预训练)是一种在各种(图像、文本)对上训练的神经网络。可以用自然语言指示它在给定图像的情况下预测最相关的文本片段,而无需直接针对任务进行优化,类似于 GPT-2 和 3 的。的性能相匹配在不使用任何原始 1.28M 标记示例的情况下,在 ImageNet 上“零样本”,克服了计算机视觉中的几个主要挑战。本文提出的模型为Contrastive Language-Image Pre-training,简称CLIP,即对比。,GPT-3在NLP领域就有zero-shot的能力。
2023-05-18 23:17:26
1167
1
原创 diffusion model
这说明前向链是马尔可夫过程, xt 是加入t步噪音后的样本, βt 是事先给定的控制噪声进度的参数。我们首先说明改善的动机,再根据方法的特性将每个改进方向的研究进一步细化分类,从而清楚的展现方法之间的联系与区别。尽管diffusion model在各类任务中都有着优秀的表现,它仍还有自己的缺点,并有诸多研究对diffusion model进行了改善。反向链从给定的先验开始并使用参数化的高斯转换核,学习逐步恢复原数据分布。用 x0 ~ q(x0)恢复数据的分布,这样就了产生一个高度灵活且易于计算的生成模型。
2023-05-18 23:09:03
192
1
原创 微软DeepSpeed Chat震撼发布,一键RLHF训练千亿级大模型
而如果使用多节点、多GPU系统,DeepSpeed-HE可以花320美元,在1.25小时内训练一个OPT-13B模型,花5120美元,就能在不到一天的时间内训练一个。此前,昂贵的多GPU设置超出了许多研究者的能力范围,并且,即使能访问多GPU集群,现有的方法也无力负担数千亿参数ChatGPT模型的训练。众所周知,由于OpenAI太不Open,开源社区为了让更多人能用上类ChatGPT模型,相继推出了。更亮的是,DeepSpeed Chat把成本大大地打了下来。,目前类ChatGPT模型的训练仍然十分困难。
2023-05-18 07:32:47
92
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人