深度学习
文章平均质量分 81
NLP_wendi
这个作者很懒,什么都没留下…
展开
-
Real-time Scene Text Detection with Differentiable Binarization
近年来,基于分割的方法在文本检测场景中非常流行,因为分割结果可以更准确地描述曲线文本等各种形状的场景文本。然而,二值化的后处理对于分割检测是必不可少的,它将分割方法产生的概率图转换为文本框/区域。本文提出了一个可微二值化(DB)模块,该模块可以在分割网络中进行二值化处理。与DB模块一起优化的分割网络可以自适应地设置二值化的阈值,不仅简化了后处理,而且提高了文本检测的性能。基于一个简单的分割网络,我们在5个基准数据集上验证了DB模块的性能,在检测精度和效率方面都始终达到了sota结果。原创 2023-02-13 21:47:15 · 480 阅读 · 1 评论 -
(14)工业界推荐系统-小红书推荐场景及内部实践【重排】
• 优势:无需人工标注。小红书的笔记天然包含图片+ 文字,大部分笔记图文相关。1、存在长尾物品和新物品,这些在双塔模型中并未很好的被表征;• 思想: 对于图片—文本二元组,预测图文是否匹配。• CLIP是当前公认最有效的预训练方法。2、用这些向量计算的相似度准确性不高。当然 DPP算法实际应用中也会结合。精排后的后处理被称为。原创 2023-01-29 20:30:45 · 847 阅读 · 0 评论 -
(13)工业界推荐系统-小红书推荐场景及内部实践【用户行为序列建模】
(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】(8)工业界推荐系统-原创 2023-01-28 20:33:08 · 941 阅读 · 0 评论 -
ChatGPT能否取代Google、Baidu,成为下一代搜索引擎?一文了解最近火出圈的ChatGPT
OpenAI这家公司又放大招了,继发布GPT、GPT2和GPT3模型后,本月初发布了ChatGPT模型【也被称为GPT3.5】,结合大家的测试效果来看,该模型效果确实很震撼,在人工智能圈子引起了不小的轰动。在AI发展相对处于低谷期的今天,如此震撼的模型发布出来,确实为该行业带来一阵暖风,本文就详细解读一下该模型。官方并没有公开ChatGPT的原始Paper,但提到 InstructGPT 是该模型的兄弟模型,因此,本文主要来解读InstructGPT模型。相关模型解读【GPT】Improving La原创 2022-12-08 13:03:37 · 3943 阅读 · 0 评论 -
一文实现 Diffusion Model
两个过程:逐步加噪【训练过程】和采样。原创 2022-10-12 11:16:24 · 935 阅读 · 0 评论 -
XLNet: Generalized Autoregressive Pretraining for Language Understanding
与基于自回归语言建模(AR LM)的预训练语言建模方法相比,基于降噪自编码的预训练方法具有良好的双向上下文建模能力。然而,由于Bert需要 mask 一部分输入,忽略了被 mask 位置之间的依赖关系,因此出现预训练和微调效果的差异(pretrain-finetune discrepancy)。针对这些优缺点,我们提出了XLNet,这是一种广义的自原创 2022-10-10 17:37:39 · 629 阅读 · 0 评论 -
从零开始搞定蒸馏模型
知识蒸馏原创 2022-10-01 20:37:36 · 1033 阅读 · 0 评论 -
Informer--用于长序列时序预测【2021AAAI Best Paper】
许多真实世界的应用需要对长序列时间序列进行预测,如用电计划。长序列时间序列预测( Long sequence time-series forecasting LSTF)对模型的预测能力提出了很高的要求,即能够有效地捕捉输出和输入之间精确的长期依赖耦合( long-range dependency coupling)。最近的研究表明,Transformer 具有提高预测能力的潜力。原创 2022-09-25 12:31:23 · 1927 阅读 · 0 评论 -
AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】
GLIDE 使用了文本作为条件,来实现文本引导的扩散模型,在文本引导上面,文中主要使用了两种策略,Classifier-Free Diffusion Guidence 以及 CLIP 来作为条件监督,同时使用了更大的模型,在数据量上,和DALL-E 相似。实际上,扩散模型做的事情本质上是一样的,不同的是,扩散模型完全使用了全新的思路来实现这个目标。(实际上等价于学习了一个隐含的分类器),缺点是,成本比较高,相当于每次要生成两个输出,尽管如此,后面的大部份知名文本生成图像模型,都是基于这个方法进行的。原创 2022-09-20 14:45:28 · 6936 阅读 · 2 评论 -
AI艺术的背后:详解文本生成图像模型【基于GAN】
系列文章链接:AI 艺术生成已经开始走进大众的视野中。在过去一年里,出现了大量的文本生成图像模型,尤其是随着 Stable Diffusion 以及 Midjourney 的出现,带起了一股 AI 艺术创作热潮,甚至很多艺术家也开始尝试用 AI 来辅助艺术创作。在本文中,将会系统梳理近几年出现的文本生成图像算法,帮助大家深入了解其背后的原理。生成对抗网络(GAN,Generative Adversarial Networks)由两个主要的模块构成:生成器和判别器。生成器负责生成一张图片,而判别器则负责判断这原创 2022-09-20 11:57:35 · 4075 阅读 · 0 评论 -
AI艺术的背后:详解文本生成图像模型【基于 VQ-VAE】
详解文本生成图像模型原创 2022-09-19 20:09:39 · 3601 阅读 · 0 评论 -
(12)工业界推荐系统-小红书推荐场景及内部实践【交叉结构】
(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】(8)工业界推荐系统-原创 2022-09-01 21:36:52 · 981 阅读 · 0 评论 -
(11)工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】
前期融合:先对所有特征做 concatenation, 再输入神经网络。• 线上推理代价大:如果有 𝑛 篇候选笔记,整个大模型要做 𝑛 次推理。1、有 𝑛 个物品,模型上层需要做 𝑛 次推理。2、粗排推理的大部分计算量在模型上层。原创 2022-09-01 20:56:28 · 1297 阅读 · 0 评论 -
(10)工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】
(比如最近30天,用户对美妆笔记的点击率、对美食笔记的点击率、对科技数码笔记的点击率。(比如最近7天,该用户对图文笔记的点击率、对视频笔记的点击率。• 物品 ID(在召回、排序中做 embedding)。• 字数、图片数、视频清晰度、标签数…• 手机品牌、手机型号、操作系统。• 人口统计学属性:性别、年龄。• 感兴趣的类目、关键词、品牌。• 标题、类目、关键词、品牌…原创 2022-09-01 20:32:24 · 988 阅读 · 0 评论 -
【ViLT】 Vision-and-Language Transformer Without Convolution or Region Supervision -- 论文精读
视觉和语言预训练(VLP)提高了各种视觉和语言联合下游任务的表现。目前的VLP方法严重依赖于图像特征提取过程,其中大部分涉及到区域特征(如物体检测)和卷积架构(如ResNet)。虽然在文献中通常被忽略掉这一点,但我们发现它在(1)效率/速度方面存在问题,简单地提取输入特征需要比多模态交互步骤多得多的计算;(2)表达能力,因为它是视觉嵌入器及其预定义的视觉词汇的表达能力的上界。.....................原创 2022-08-25 20:36:06 · 974 阅读 · 0 评论 -
(9)工业界推荐系统-小红书推荐场景及内部实践【排序模型】
(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】(8)工业界推荐系统-原创 2022-07-11 22:50:48 · 884 阅读 · 0 评论 -
【Optimizer】ValueError: can‘t optimize a non-leaf Tensor
Pytorch优化模型参数时,碰到一个报错, 如下:从报错类型来看,不能优化非叶子节点的参数。把model的参数打出来看看,如下图:发现的确有两个参数为非叶子节点,同时其requires_grad=True,因此报错。解决办法:先将这种参数detach掉【requires_grad=False】,然后再喂给优化器,如果确实需要优化这种参数,再调整其requires_grad=True,如下:如此,问题解决,即可正常优化模型参数了。......原创 2022-07-04 10:16:43 · 2576 阅读 · 0 评论 -
Transformer-XL 论文精读
文章链接:Transformer-XL: Attentive Language Models Beyond a Fixed-Length ContextTransformers在学习长序列依赖上有潜在优势,但也受限于语言模型序列长度固定的问题。我们提出了一个新颖的网络结构:Transformer-XL,在不打破时序关系的前提下可以突破固定长度的限制。它由片段级的循环机制和全新的位置编码框架构成。该架构不进可以学习文本的长依赖关系,还可以解决上下文碎片问题。最终,Transformer-XL可以学习相较RNN原创 2022-06-20 23:11:17 · 465 阅读 · 0 评论 -
【翻译】A Survey of Transformers -- Transformers综述
这篇文章翻译自复旦大学邱锡鹏团队的 Transformers 综述。Transformers在许多领域都取得了取得的成功,如:NLP、CV和语音处理,自然吸引了学术界和工业界的很大兴趣。到目前为止,已经有许多Transformers的变体(也就是 X-formers)被提出来,然而仍然缺乏对这些变体的系统的、全面的文献解读。这篇综述中,我们提出对X-formers 全面的评述。我们首先介绍了Vanilla Transformer,然后对X-formers 进行划分,接下来从结构、预训练和应用三个方面介绍了不原创 2022-06-16 11:43:44 · 581 阅读 · 0 评论 -
(8)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题2】
系列文章传送门(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】该系列文章原创 2022-06-05 23:04:03 · 1762 阅读 · 0 评论 -
(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】
系列文章传送门(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】该系列文章根据小红书搜推算法工程师、团队负责人王树森B站上主讲的《工业界的原创 2022-06-04 23:04:23 · 1229 阅读 · 0 评论 -
【AlphaCode】Competition-Level Code Generation with AlphaCode
Paper Link: Competition-Level Code Generation with AlphaCode自动生成Code系列文章解读:【Codex】Evaluating Large Language Models Trained on CodeAbstractProgramming is a powerful and ubiquitous problem-solving tool. Developing systems that can assist programmers or e原创 2022-04-26 22:13:06 · 1091 阅读 · 0 评论 -
【Codex】Evaluating Large Language Models Trained on Code
Paper Link: Evaluating Large Language Models Trained on Code自动生成Code系列文章解读:【AlphaCode】Competition-Level Code Generation with AlphaCodeAbstractWe introduce Codex, a GPT language model finetuned on publicly available code from GitHub,and study its Pytho原创 2022-04-26 22:09:16 · 2771 阅读 · 0 评论 -
【GPT3】Language Models are Few-Shot Learners
在大规模文本语料上的预训练模型,然后在特定任务上微调后的NLP任务已经取得了长足的进步。然而针对任务无关的的模型结构,这种方法仍然需要在特定任务的成千上万的数据集上微调。对比来看,人类仅从少部分样本或简单的命令上,就可以学习新的语言任务。这里,我们极大程度地扩展语言模型,进而提高在通用任务、小样本上的性能,甚至可以比拟之前经过微调后的sota模型性能。具体地,我们训练了GPT-3的自回归语言模型,由1750亿个参数组成,10倍于之前的非稀疏语言模型。针对所有任务,GPT-3不用梯度更新或微调。...原创 2022-04-25 21:27:19 · 1712 阅读 · 0 评论 -
【GPT2】Language Models are Unsupervised Multitask Learners
Paper Link:Language Models are Unsupervised Multitask LearnersGPT系列文章解读:【GPT】Improving Language Understanding by Generative Pre-Training【GPT2】【GPT3】Abstractintroduction原创 2022-04-25 21:20:50 · 1458 阅读 · 0 评论 -
【GPT】Improving Language Understanding by Generative Pre-Training
Paper Link:Improving Language Understanding by Generative Pre-TrainingGPT系列文章解读:【GPT2】【GPT3】Abstract自然语言理解包含一系列广泛的任务,如:文本推理、问答、语义相似度分析和文档分类等。尽管有丰富的未打标语料可以使用,但针对特定任务的打标数据仍是稀缺的,使得模型很难被充分训练。我们提出来 Generative Pre-Training模型,在未打标的语料上预训练模型,然后在每个下游任务上设计不同的微调任原创 2022-04-25 21:17:18 · 1646 阅读 · 0 评论 -
如何在多块GPU上训练大模型,How to Train Really Large Models on Many GPUs?
今天来看一篇工程优化文章,关于如何在多块GPU上训练大模型,作者Lilian Weng现为OpenAI应用人工智能研究负责人,主要从事机器学习、深度学习和网络科学研究。原文链接:How to Train Really Large Models on Many GPUs?Training ParallelismData ParallelismDP最朴素的方法是复制相同的模型权重参数到多个workers上,给每个worker一部分数据来同时处理。如果模型size大于单个GPU节点内存时,这种方法是不能原创 2022-04-24 11:31:00 · 2483 阅读 · 0 评论 -
对抗学习常见方法代码实现篇
原理篇可参考:对抗学习概念、基本思想、方法综述FGM类定义class FGM(): def __init__(self, model): self.model = model self.backup = {} def attack(self, epsilon=1., emb_name='emb.'): # emb_name这个参数要换成你模型中embedding的参数名 for name, param in s原创 2022-04-17 17:24:16 · 1413 阅读 · 1 评论 -
对抗学习概念、基本思想、方法综述
对抗学习的基本概念要认识对抗训练,首先要了解 “对抗样本”,它首先出现在论文 Intriguing properties of neural networks 之中。简单来说,它是指对于人类来说 “看起来” 几乎一样,但对于模型来说预测结果却完全不一样的样本,比如下面的经典例子(一只熊猫加了点扰动就被识别成了长臂猿)对抗学习的基本思想Min-Max公式:max函数指的是,我们要找到一组在样本空间内、使Loss最大的的对抗样本(该对抗样本由原样本x和经过某种手段得到的扰动项r_adv共同组合得到原创 2022-04-16 20:28:02 · 23250 阅读 · 0 评论 -
When Does Label Smoothing Help?
原文链接:When Does Label Smoothing Help?Hinton老师的这篇paper,说明了标签平滑策略为什么是有效的。摘要原创 2022-04-13 15:58:47 · 2304 阅读 · 0 评论 -
SimCSE: Simple Contrastive Learning of Sentence Embeddings
摘要这篇文章提出了SimCSE,一个简单的对比学习网络架构,可以取得超过SOTA的句子级别表征性能。我们首先阐述了非监督方法,将一个句子作为输入,并以标准的dropout作为噪声的对比学习的方式预测这个句子本身。这种简单的方法效果出奇地好,基本可以达到之前监督学习的水准。我们发现,dropout是作为最小数据增强的功能,将其移除掉会导致表达能力的急剧降低。然后,我们又提出监督学习的方式,结合NLP任务中的打标样本对,将”蕴含“句子对作为正样本,将”矛盾“句子对作为负样本。在标准的STS任务上进行评估,我原创 2022-04-08 16:06:19 · 3965 阅读 · 0 评论 -
深度学习中的几种常用Normalization对比
本篇文章对深度学习网络结构中常用的Normalization进行梳理,对比其区别和联系,以及分别适用的场景,给出响应的paper和code。论文链接Batch Normalization【2015.3】Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate ShiftLayer Normalization【2016.7】Layer NormalizationInstance N原创 2022-04-08 15:14:42 · 1961 阅读 · 0 评论