东风中的蒟蒻
码龄4年
关注
提问 私信
  • 博客:57,181
    社区:211
    问答:80
    动态:9
    57,481
    总访问量
  • 71
    原创
  • 44,751
    排名
  • 126
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2020-08-14
博客简介:

东风的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    441
    当月
    0
个人成就
  • 获得162次点赞
  • 内容获得16次评论
  • 获得234次收藏
  • 代码片获得145次分享
创作历程
  • 10篇
    2024年
  • 27篇
    2022年
  • 18篇
    2021年
  • 17篇
    2020年
成就勋章
TA的专栏
  • AIGC
    6篇
  • T2V
    1篇
  • numpy
  • OpenGl
    1篇
  • 算法模板
    2篇
  • C++ Primer
    9篇
  • C++ Primer Plus
    4篇
  • IDE操作
    6篇
  • 图论
  • c++语法
    2篇
  • 作业
    1篇
  • 堆
    2篇
  • RMQ
    1篇
  • 二分
    1篇
  • 二分分治
    1篇
  • 动态规划
    1篇
  • Algorithm of char
    3篇
兴趣领域 设置
  • Python
    python
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    数据挖掘计算机视觉目标检测机器学习人工智能深度学习神经网络自然语言处理sklearn视觉检测图像处理迁移学习
  • 操作系统
    linuxubuntuwindows
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

180人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)

本质是将LLM的transformer和图像中的diffusion结合了起来,使用同一个transformer来同时处理文本和图像信息.之前的DiT架构都是使用一个预训练的TextEncoder来提取文本信息,并通过Concat、AdaLN、架构改进:论文还探讨了Transfusion模型的不同变体,包括使用不同大小的图像补丁、不同的编码/解码架构(线性层与U-Net块),以及限制图像噪声的程度,以提高特定任务的性能。这允许图像内的每个补丁能够相互注意,同时只能注意序列中先前出现的文本或图像补丁。
原创
发布博客 2024.09.04 ·
1172 阅读 ·
32 点赞 ·
0 评论 ·
16 收藏

Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer

这篇论文试图解决的是盲目面部恢复(blind face restoration)问题,这是一个高度不确定的任务,通常需要辅助指导来改善从低质量(LQ)输入到高质量(HQ)输出的映射,或者补充输入中丢失的高质量细节。上图给出了为什么使用VQVQE,因为VAE输出的Embedding是连续的,包含的潜空间太大,而VQVAE可以看作聚类,从LQ->HQ的映射,为了保证图像质量,我们希望这个映射空间较小,从而更可能生成高质量的图像.,更有利于模型学习.CodeFormer也可以用于图像编辑之类的.
原创
发布博客 2024.09.04 ·
526 阅读 ·
3 点赞 ·
0 评论 ·
12 收藏

RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs(IEEE,2023

VQVAE部分.VQVAE在Encoder和Decoder中间的潜空间进行的,并且VQVAE的输出作为Decoder的Q来进行Cross Attention,作者认为之间构建的Facial Component Dictionary并没有包含足够的语义信息,通过VQVAE进行编码的ROHQD能够包含更多的细节信息.动机:认为之前的模型都只关注了图像的纹理信息,而忽视了人脸的细节信息,本文采用多尺度、交叉注意力的方式引入模型的语义信息.TODO:之后在做超分的任务时可以关注一下这个EDM构造数据集的做法.
原创
发布博客 2024.09.04 ·
348 阅读 ·
4 点赞 ·
0 评论 ·
9 收藏

图像评估指标

FID、PSNR、SSIM、LPIPS等图像评估指标
原创
发布博客 2024.08.19 ·
337 阅读 ·
4 点赞 ·
0 评论 ·
6 收藏

ControlNeXt: Powerful and Efficient Control for Image and Video Generation(2024,8)

ControlNeXt Paper Reading
原创
发布博客 2024.08.19 ·
716 阅读 ·
21 点赞 ·
0 评论 ·
9 收藏

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

清华 智普最新T2V模型,CogVideoX,能生成480x720的6s fps=8视频,经过测试位于第二梯队,弱于快手可灵,Luma等模型
原创
发布博客 2024.08.15 ·
960 阅读 ·
8 点赞 ·
0 评论 ·
11 收藏

IP、ID一致性论文阅读

IP一致性:指的是给定输入的图像,要求保持图像中的ID不变,IP可能是Identity Property,要求能够识别出是同一个身份。目前通过IP的一致性技术,可以用于短视频短剧上,是一个新兴的市场技术。
原创
发布博客 2024.07.29 ·
964 阅读 ·
28 点赞 ·
0 评论 ·
20 收藏

Scaling Vision Transformers to 22 Billion Parameters

Vision Transformer(ViT)的大规模扩展:尽管Transformer架构在自然语言处理(NLP)领域取得了巨大成功,但在计算机视觉(CV)领域,尤其是图像和视频建模方面,尚未实现与语言模型相当的规模扩展。论文提出了ViT-22B,这是一个具有220亿参数的Vision Transformer模型,是目前最大的密集ViT模型。训练稳定性和效率:在扩展ViT模型到22亿参数的过程中,作者遇到了训练不稳定性的问题。
原创
发布博客 2024.07.21 ·
820 阅读 ·
10 点赞 ·
0 评论 ·
28 收藏

哈工大高级算法、组合优化作业、实验、PPT和书籍

发布资源 2024.07.18 ·
zip

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools(2024.7.16)

ChatGLM-4 最新论文阅读
原创
发布博客 2024.07.18 ·
1009 阅读 ·
29 点赞 ·
0 评论 ·
6 收藏

PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE

PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE 简介
原创
发布博客 2024.07.18 ·
289 阅读 ·
9 点赞 ·
0 评论 ·
1 收藏

笔记:计算机网络-应用层

发布资源 2022.09.29 ·
md

经典的卷积神经网络的pytorch实现(LeNet、AlexNet、VGGNet、NiN、GoogleNet、ResNet、DenseNet)

经典的卷积神经网络的pytorch实现
原创
发布博客 2022.06.14 ·
731 阅读 ·
1 点赞 ·
1 评论 ·
10 收藏

哈工大 计算机系统 一纸开卷CSAPP

哈工大计算机系统CSAPP 一纸开卷
原创
发布博客 2022.06.06 ·
992 阅读 ·
2 点赞 ·
0 评论 ·
22 收藏

计算机系统-大作业

本文以hello.c文件为案例,详细地分析了程序在Linux、Window操作系统下的运行过程,分别从硬件、软件、用户、内核等各个方面阐述了程序的运行过程,并在适当的过程中给出相应的程序截图。本文主要按照《CS:APP》的章节顺序进行展开,从低层次到高层次逐渐理解操作系统的各个机制和工作原理。关键词:操作系统、Linux、程序 目 录第1章 概述 - 4 -1.1 Hello简介 - 4 -1.2 环境与工具 - 4 -1.3 中间结果 - ...
原创
发布博客 2022.05.20 ·
380 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Linux c语言实现简单的CLI(command line interpreter)

这是标准答案#include "wish.h"#include <ctype.h> // isspace#include <regex.h> // regcomp, regexec, regfree#include <stdio.h> // fopen, fclose, fileno, getline, feof#include <stdlib.h> // exit#include <sys/types.h>#include &
原创
发布博客 2022.04.02 ·
3243 阅读 ·
0 点赞 ·
4 评论 ·
1 收藏

TensorFlow中常见的CallBack

文章目录TensorFlow中常见的CallBackTensorboardCheckpointEarlystopingCSVLoggerLearningRateScheduler定义CallBack类TensorFlow中常见的CallBackTensorboardmodel = build_model(dense_units=256)model.compile( optimizer='sgd', loss='sparse_categorical_crossentropy',
原创
发布博客 2022.03.07 ·
2097 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

使用Tensor Flow自定义Hidden Layer

文章目录Lambda Layer定义类Lambda Layer使用keras.layers提供的Lambda layer APImnist = tf.keras.datasets.mnist(x_train, y_train),(x_test, y_test) = mnist.load_data()x_train, x_test = x_train / 255.0, x_test / 255.0如下:model = tf.keras.models.Sequential([ tf.ke
原创
发布博客 2022.03.02 ·
316 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用tensorflow自定义loss函数

文章目录定义python函数wrapper类定义python函数 def my_huber_loss(y_true, y_pred): error = y_true - y_pred is_small_error = tf.abs(error) <= threshold small_error_loss = tf.square(error) / 2 big_error_loss = threshold * (tf.abs(err
原创
发布博客 2022.03.02 ·
2531 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

人脸识别基础(FaceNet)

文章目录Face verification VS Face recoginitionEncoderTriplet Loss主要思路参考FaceNet论文:FaceNet: A Unified Embedding for Face Recognition and Clustering以及吴恩达视频Face verification VS Face recoginition对于人脸验证,我们完全可以将之看作为一个二分类问题,但人脸识别发展到现在,我们依然用人脸识别的方法来解决。Encoder我们
原创
发布博客 2022.02.14 ·
2371 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏
加载更多