funNLPer
2 B A NB NLPer
展开
-
一文打通RLHF的来龙去脉
强化学习、RLHF、PPO、chatGPT、文生图、微调原创 2023-12-17 12:12:32 · 129 阅读 · 0 评论 -
强化学习微调文生图模型DPOK:Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models
DPOK原创 2023-12-09 22:38:45 · 223 阅读 · 0 评论 -
强化学习在文生图中的应用DDPO:Training Diffusion Models with Reinforcement Learning
强化学习在文生图中的应用,RLHF、reinforment learning、stable diffusion、text2image原创 2023-11-18 21:36:26 · 333 阅读 · 0 评论 -
文生图模型测评之HPS v2
文生图模型测评 HPS原创 2023-11-12 16:29:23 · 223 阅读 · 0 评论 -
文生图模型评测之PickScore
PickScore原创 2023-11-09 21:40:32 · 402 阅读 · 0 评论 -
像素空间文生图之Imagen原理详解
像素空间文生图imagen原理原创 2023-09-09 10:37:41 · 274 阅读 · 0 评论 -
从VAE到Diffusion生成模型详解(1):变分自编码器VAE
什么是生成式模型给定训练集,产生与训练集同分布的新样本。如下图所示,希望学习到一个模型pmodelxpmodelx,它与训练样本的分布pdataxpdatax相近从下图可以更形象的解释,假设除了问号以外的都是真实数据,模型学习到的分布为整个椭圆以内的区域,那么从椭圆内采样任意一点(如问号)都可以生成一张对应的图片。注意其他图案对应的是真实数据,但是真实数据有限,因此通过学习一个分布就能通过采样生成无限张图片。原创 2023-07-13 01:27:41 · 549 阅读 · 0 评论 -
从VAE到Diffusion生成模型详解(3):普通GAN的改进及变种
生成对抗网络详解原创 2023-07-17 00:41:57 · 346 阅读 · 1 评论 -
SSD目标检测原理详解
当前主流的目标算法主要分为两个类型:(1)two-stage方法,如R-CNN系算法,其主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高;原创 2023-08-06 14:39:38 · 331 阅读 · 0 评论 -
人脸检测Retinaface算法原理详解
Retina Face主要使用了WIDER FACE数据集,该数据集包含32203个图像和393703个人脸框,图像的尺度, 姿态,表情,遮挡和光照变化都很大。WIDER FACE数据集被分为训练40% 验证10% 和测试50%三个子集,通过在61个场景分类中随机采样。基于EdgeBox的检测率,然后通过递增合并难样本,整个数据集分为分为3级:容易,中性和困难。此外RetinaFace团队还进行了额外标注:依据人脸关键点标注困难程度定义的5个人脸质量级别,并且标注5个关键点(眼睛中心2,鼻尖1,嘴角2)原创 2023-08-09 23:32:47 · 313 阅读 · 0 评论 -
Stable Diffusion XL(SDXL)原理详解
通过各种实验验证,SDXL已经超越了先前发布的各种版本的Stable Diffusion,并且与当前未开源的文生图SOTA模型(如midjorney)具有不相上下的效果。本文将介绍SDXL相比于之前的SD(SD1.5, SD2.0等)改进之处。本文主要根据技术报告来讲解SDXL的原理,在下一篇文章中我们会通过源码解读来进一步理解SDXL的改进点。原创 2023-08-17 21:00:59 · 1451 阅读 · 0 评论 -
定制化diffusion微调: DreamBooth原理
论文:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation项目:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation1. 任务简介当前的文生图模型已经可以根据给定的prompt生成高质量的图片。然后这些模型并不能模仿给定参考图片中物体的样子在不同情景中来生成新颖的图片(即参原创 2023-07-28 00:32:58 · 422 阅读 · 0 评论 -
从VAE到Diffusion生成模型详解(2):生成对抗网络GAN
问题: 希望从训练样本分布中采样新数据,但这个分布不仅维度高而且还很复杂,难以直接实现。因此想到一个相对简单的方法:对一个简单的分布采样,比如均匀分布;然后,学习一种映射将其变换到训练样本分布。而这种映射的实现就是通过神经网络。原创 2023-07-15 15:57:21 · 219 阅读 · 0 评论 -
通俗理解DDPM到Stable Diffusion原理
Stable diffusion原理详解原创 2023-08-27 21:55:36 · 1459 阅读 · 1 评论 -
可控生成之ControlNet原理
可控生成,stable diffusion, controlnet,文生图原创 2023-08-31 23:57:31 · 517 阅读 · 0 评论 -
可控生成之GLIGEN原理
GLIGEN: Open-Set Grounded Text-to-Image Generation 论文阅读原创 2023-09-03 00:10:03 · 467 阅读 · 0 评论 -
数据集总和
1. 细粒度实体描述知识库EntityDescriptionKB1.1 项目概述EntityDescriptionKB,涵盖87万实体概念描述知识库,基于开放文本挖掘而成,格式为[实体/概念,描述体,置信度], 如[谷歌,全球最大互联网搜索企业,1.0]、[亚马逊,美国最大电商和云服务企业,1.0]1.2 项目由来当前细粒度的实体描述需求很大,尤其是在细粒度实体推荐上,以百科标签、概念的方法进行实体描述,过于抽象,丢失了大量的上下文信息。因此,实体描述数据,可以以一个短句的方式来描述实体的丰富信息原创 2022-04-23 16:04:08 · 294 阅读 · 0 评论 -
算法工程师面试真题总结-目录
[1]. 2020校招面试[2]. 2021年社招面试[3]. 面筋(来自网络)原创 2020-12-23 15:05:46 · 313 阅读 · 1 评论 -
Transformer详解(3)---面试八股文
1.Transformer 的结构是什么样的?Transformer 本身还是一个典型的 encoder-decoder 模型,如果从模型层面来看,Transformer 实际上就像一个 seq2seq with attention 的模型,下面大概说明一下 Transformer 的结构以及各个模块的组成。1.1 Encoder 端 & Decoder 端总览(1) Encoder...原创 2020-03-15 18:31:36 · 2397 阅读 · 1 评论 -
SVM 面试
1. svm简介SVM 是一种二分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,具体来讲,有三种情况(不加核函数的话就是个线性模型,加了之后才会升级为一个非线性模型):当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机2. SVM 为什么采用间隔最大化(与感知机原创 2020-12-23 15:09:31 · 139 阅读 · 0 评论 -
ELMO面试
1. ELMO的基本原理是什么ELMO采用了典型的两阶段过程:第一个阶段是利用语言模型进行预训练第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中1.1第一阶段:利用语言模型进行预训练下图展示的是其预训练过程,它的网络结构采用了双层双向LSTM,其中单词(token)特征这一块采用的是单词的embedding或者采用字符卷积得到其embedding表示语言模型训练的任务目标是根据单词 的上下文去WiW_iWi正确预测原创 2020-05-22 12:33:10 · 363 阅读 · 0 评论 -
面试算法题&高频题
1. 最长上升子序列给定一个无序的整数数组,找到其中最长上升子序列的长度输入: [10,9,2,5,3,7,101,18]输出: 4 解释: 最长的上升子序列是 [2,3,7,101],它的长度是 4。解法一:时间复杂度O(n2)O(n^2)O(n2)class Solution(object): def lengthOfLIS(self, nums): """ :type nums: List[int] :rtype: int原创 2020-05-22 11:03:41 · 366 阅读 · 1 评论 -
BERT面试
1. BERT 的基本原理是什么?BERT整体是一个自编码语言模型(Autoencoder LM),并且其设计了两个任务来预训练该模型。第一个任务是采用 MaskLM 的方式来训练语言模型,通俗地说就是在输入一句话的时候,随机地选一些要预测的词,然后用一个特殊的符号[MASK]来代替它们,之后让模型根据所给的标签去学习这些地方该填的词。第二个任务在双向语言模型的基础上额外增加了一个句子级别...原创 2020-03-13 22:49:48 · 1666 阅读 · 5 评论 -
CRF原理介绍(以BILSTM-CRF模型为例)
文章目录1. BiLSTM-CRF命名实体识别概要1.1 模型介绍1.2 CRF在模型中的作用2. CRF层详解2.1 发射矩阵(emission矩阵)2.2 转移矩阵(Transition得分)2.3 CRF损失函数2.4 实际路径得分计算2.5 所有可能路径总分计算3. 新的句子推理4. 参考1. BiLSTM-CRF命名实体识别概要假设有一个数据集,其中有两个实体类型,Person和Organization。但是,事实上,在我们的数据集中,我们有5个实体标签B-PersonI- Person原创 2021-10-17 22:25:17 · 1077 阅读 · 0 评论