WindyChanChan-CSDN博客

原创五、Flask类视图和Restful

【代码】五、Flask类视图和Restful。

2024-04-27 19:44:00 124

原创二、Flask会话技术和模板语言

【代码】二、Flask会话技术和模板语言。

2024-04-14 13:29:04 548

原创一、flask入门和视图

【代码】一、flask入门和视图。

2024-04-12 20:48:52 375

原创自然语言处理应用：开放文本域的实体关系抽取

【代码】自然语言处理应用：开放文本域的实体关系抽取。

2024-03-23 21:35:10 150

原创 Stable Diffusion 详解

整体目标文本生成图片；文本+图片生成图片网络结构CLIP的文本编码器和图片生成器组成图像生成器，输入是噪声经过UNet得到图像特征，最后解码得到图像前向扩散模型直接预测图片难度比较大，所有让模型预测噪音然后输入-噪音可得到原图逆向扩散预测模型UNet改进后的UNet参考链接

2024-03-10 13:55:41 553

Yolos完全使用Transformer做目标检测Detr先使用CNN提取特征然后再使用transformerDetr和Yolos共同的缺点：需要事先知道所有的类别GlipZero-shot, 目标检测的类别可以不在训练类别中目标框进行视觉编码，然后和文本进行匹配文本和视觉特征是通过Clip模型提取的，所以视觉向量和文本向量是在一个空间Glip模型的优点Glip图像和文本融合Glip损失函数Glip训练数据

2024-03-09 21:16:05 464

原创 SAM模型

SAM与过去分割对比根据以下Demo,我们可以发现，通过在图像中指定要分割的内容提示，SAM可以实现各种分割任务，且无需额外的训练、做到零样本泛化，即SAM学会了辨别物体、具备图像理解力、对不熟悉的图像和物体能进行零样本概括，这一通用特性使得SAM模型在有关领域的推广应用成为可能。SAM模型结构focal loss为了解决类别不均衡的问题，其中系数为0就是标准的分类loss数据引擎SAM存在的问题

2024-03-09 20:32:49 431

原创多模态入门

VIT处理图像CNN VS Transformer多模态BLIP模型网络结构视觉编码器: 就是 ViT 的架构。将输入图像分割成一个个的 Patch 并将它们编码为一系列 Image Embedding，并使用额外的 [CLS] token 来表示全局的图像特征。视觉编码器不采用之前的基于目标检测器的形式，因为 ViLT 和 SimVLM 等工作已经证明了 ViT 计算更加友好。作用提取图像特征。文本编码器:就是 BERT 的架构，其中 [CLS] token 附加到文本输入的开头以总结句

2024-03-06 19:08:11 367

原创从第一原理看大语言模型

大模型基础框架大模型幻觉问题大模型能力思维链模式思维链模式激发的是大模型的推理能力LLM知识能力RAG

2024-03-03 19:54:51 543

原创 Sora模型技术讲解

3 的patch，就是1800维特征。将一帧一帧图片转化为20 * 30。

2024-03-02 11:43:30 367

原创 Sora背后的关键技术

Sora量大核心技术Spacetime Patch（时空Patch）Patch可以理解为Sora的基本单元，就像GPT-4的基本单元是Token。Token是文字的片段，Patch则是视频的片段。GPT-4被训练以处理一串Token，并预测出下一个Token。Sora遵循相同的逻辑，可以处理一系列的Patch，并预测出序列中的下一个Patch。Sora通过Spacetime Patch将视频视为补丁序列，Sora保持了原始的宽高比和分辨率，类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至

2024-02-28 20:52:41 442

原创扩散模型：Diffusion Model原理剖析

x0ϵθtϵx0xtxt−1x0xtqxt−1∣xtx0)Pxt−1∣xt)xt−1xttx0xtxttxt−1x0ααββδtz。

2024-01-20 14:11:13 932

原创 SCI期刊查询利器：影响因子和分区情况一站式查询

SCI期刊查询利器：影响因子和分区情况一站式查询

2024-01-20 14:01:59 357

原创论文下载网站

论文下载渠道

2024-01-20 13:58:03 275

原创扩散模型： Diffusion Model概念讲解

Diffusion Model课件视频前向扩散过程在原始图像中逐步添加高斯分布随机噪声，直到最后得到完全噪声的图像。反向降噪过程逐步去除噪声图中的噪声，得到最后原图。根据噪声图和时间步得到预测的噪声，然后噪声图减去噪声得到原始图噪声预测的标签来自于前向扩散过程中添加的噪声DDPM算法流程Stable Diffusion Model与扩散模型对比，可以理解成stable diffusion model就是在latent space上的diffusion model

2024-01-06 21:58:52 918

原创 Instruct GPT:training language models to follow instructions with human feedback

Instruct GPT论文局限性GPT等大型语言模型基于Prompt的zero shot的学习范式有一个很大的问题是，预训练的模型完成的任务是后继文本的预测，这和具体任务的要求有一些偏离，生成的结果也不一定符合人的意图。贡献本文提出构建人类反馈的数据集，使用监督学习去Fine-tune GPT模型，这样能使得模型往大家希望的方向行进（模型输出与人类意图Alignment）。Fine-tune后，仅使用13亿参数量的GPT-3.5比1750亿参数量的GPT-3效果要好。数据集P

2024-01-05 21:28:00 833 1

原创 GPT-3: Language Models are Few-Shot Learners

模型架构基本延续GPT-2的基于Transformer的网络架构。相比于GPT-2做了如下改变：In-context Learning

2023-12-29 20:22:51 733

原创 GPT-2: Language Models are Unsupervised Multitask Learners

GPT 2论文代码GPT-2的核心思想是，任何一个有监督NLP任务，都可以看成是语言模型的一个子集，只要预训练语言模型的容量足够大，理论上就能解决任何NLP任务。GPT-2的核心就是提升模型的容量和数据多样性，让语言模型能够达到解决任何任务的程度。改进之处模型更大，采用48层的transformer的decoder共有15亿个参数；数据集更大，训练数据是一个称为WebText的数据集总共有40GB的文本内容。GPT在大数据集上预训练然后再目标任务上微调会存在：需要重新训练模型；需要针对目标

2023-12-28 18:35:38 373

原创 DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

参考链接：https://zhuanlan.zhihu.com/p/639249327。

2023-12-24 22:30:01 872

原创 DALL-E:Zero-Shot Text-to-Image Generation

参考：https://blog.csdn.net/weixin_57974242/article/details/134227455。

2023-12-23 13:41:29 494

原创自然语言处理阅读第三弹

对于每个任务，都有一个特定的前缀被添加到输入序列的开始部分。这些前缀相当于任务特定的提示，可以是一组固定的词或是可训练的嵌入向量。同时，为了防止直接更新Prefix的参数导致训练不稳定和性能下降的情况，在Prefix层前面加了MLP结构，训练完成后，只保留Prefix的参数。：该方法可以看作是Prefix Tuning的简化版本，它给每个任务定义了自己的Prompt，然后拼接到数据上作为输入，但只在输入层加入prompt tokens，并且不需要加入 MLP 进行调整来解决难训练的问题。

2023-12-22 21:18:32 1291 1

原创自然语言处理阅读第二弹

HuggingFace镜像网站模型库HuggingFace中bert实现下游任务介绍重要源码解读NLP中的自回归模型和自编码模型自回归：根据上文内容预测下一个可能的单词，或者根据下文预测上一个可能的单词。只能利用上文或者下文的信息，不能同时利用上文和下文的信息。自编码：对输入的句子随机Mask其中的单词，然后预训练过程的主要任务之一是根据上下文单词来预测这些被Mask掉的单词。同时根据上下文预测单词。Sequence-to-Sequence：是encoder和decoder的结合

2023-12-17 21:10:23 1079

原创自然语言处理阅读第一弹

Masked Language Model:将输入句子中的某些token随机替换为[MASK],然后基于上下文预测这些被替换的token。学习局部语义和上下文依赖关系。这有助于BERT理解每个词的表达。Next Sentence Prediction:给定一对句子A和B,判断B是否是A的下一句。这可以学习句子之间的关系,捕获上下文信息，有助于BERT在文档层面上理解语言。

2023-12-15 20:31:33 532

原创 Pytorch中的Tensorboard常用API

Tensorboard常用API

2023-11-23 18:59:51 762 1

原创 Pytorch中并行训练

分布式并行训练多GPU训练分布式训练单机多卡训练分布式流程github实现

2023-10-07 19:28:26 61

原创 pytorch版本的timm库

timm库官网文档huggingface文档介绍githubtimm 是一个 PyTorch 原生实现的计算机视觉模型库。它提供了预训练模型和各种网络组件，可以用于各种计算机视觉任务，例如图像分类、物体检测、语义分割等等。VIT模型

2023-08-15 21:39:03 1745

原创 Linux环境安装CUDA和CUDNN

conda 虚拟环境中 cuda不同版本進行切換: https://blog.csdn.net/weixin_43305485/article/details/130413708。参考地址：https://blog.csdn.net/m0_45447650/article/details/132058561。查询： http://pci-ids.ucw.cz/mods/PC/10de?列表： http://pci-ids.ucw.cz/read/PC/10de。

2023-08-14 18:11:00 166

原创论文写作工具

Zotero文献管理工具，浏览器下载Zotero Connector插件，可以在线将arxiv等论文保存到Zotero中。插件

2023-08-04 23:11:29 38

原创 CV论文网

CVPapersCVPapers专注于计算机视觉资源。CV算法CV算法代码ECCV论文ECCV每间隔一年举办。AMinerAMiner有做好的分类，也有顶会论文的推荐，AMiner是由清华大学计算机科学与技术系教授唐杰率领团队建立的，具有完全自主知识产权的新一代科技情报分析与挖掘平台。

2023-07-15 13:11:41 57

原创 Part-based Pseudo Label Refinement for Unsupervised Person Re-identification

PPLR单个部分的消融研究与最新的方法对比

2023-07-04 18:47:17 329 1

原创 NFormer: Robust Person Re-identification with Neighbor Transformer

研究动机解决方法LAARNS。

2023-07-04 09:15:26 108

原创看论文的好工具

每篇论文可能有多个合并的条目.：以相当简洁的列表关联论文和代码实现，包含最新的 NIPS 论文.：每个项目可以方便地展示为 arXiv+GitHub+链接+讨论，可惜的是这个项目不再维护了.

2023-06-28 21:26:15 77

原创 React基础

React基础

2023-05-06 19:33:44 38

原创 2022 TIP: Cluster-guided Asymmetric Contrastive Learning for Unsupervised Person Re-Identification

现有的无监督Re-ID方法通常建立在聚类的伪标签上。然而聚类结果严重的依赖学习的特征的质量，那很大程度上受图片颜色的影响。我们试图抑制颜色的负面主导影响，以学习无监督人Re-ID的更有效特征。具体而言，我们提出了一种用于无监督人员Re-ID的聚类引导非对称对比学习（CACL）方法，其中利用聚类结果在适当设计的不对称对比学习框架中引导特征学习。在CACL中，实例级和聚类级的对比学习都被用来帮助孪生网络学习判别特征分别针对不同的数据增强视图内和不同的数据扩展视图之间的聚类结果。

2023-03-26 17:15:04 209

原创音视文图表工具集锦

音视文图表工具集锦

2023-03-26 14:35:53 59

原创 2022 CVPR : On the Integration of Self-Attention and Convolution

卷积操作和注意力机制都可以用来学习表征，两者之间存在根本关系。从某个意义说，这两个范例的大部分计算实际上用相同的操作完成。传统的k×kk\times kk×k卷积可以被分解成k2k^{2}k2个1×1卷积，移位和求和操作。然后，我们将查询、键和值在自我注意力模块中的投影解释为多个1×1卷积，然后计算关注权重和值的聚合。该混合模型既享受了self-Attention 和Convolution （ACmix）的好处，同时与纯卷积或自我注意力对应模型相比具有最小的计算开销。

2023-03-10 21:23:33 176

原创 2021 Oral CVPR : Exploring Simple Siamese Representation Learning

孪生网络已经成为无监督视觉表征学习的主流框架，最大化同一图像的两个增广图的相似性使其避免崩溃解(collapsing solutions) 问题。本文提出了一个simple Siamese网络可以在不使用1) 负样本对；2）大批量； 3）动量编码器取得好的结果。崩溃解存在于损失函数和网络中，但是可以通过stop-gradient操作避免崩溃解。SimSiam在ImageNet及下游任务上均取得了有竞争力的结果。

2023-02-26 21:02:35 393

原创实时目标检测

目标检测代码

2023-02-19 20:13:32 80

计算机图形学函数

计算机图形学

空空如也