Deep Learning
文章平均质量分 91
chvalrous
不忘初心,方得始终.
展开
-
Self-Guided Contrastive Learning for BERT Sentence Representations
文章链接:《Self-Guided Contrastive Learning for BERT Sentence Representations》文章的背景:尽管bert及后续很多优化的变体,但是对用于句子相似度计算的句子如何最优的表征, 这块的结论并不是很清晰。比如之前常用的方法是直接取bert的倒数第一层 或者 倒数第二层的[cls]向量作为句子表征。然而我们实际中拿这个[cls]向量直接计算句子相似度的时候就会发现, 本该距离远的sentence 的 cls 向量表征也可能很近,这个现象在题.原创 2021-09-30 15:41:27 · 1045 阅读 · 1 评论 -
完全图解GPT-2:看完这篇就够了(一)
在过去的一年中,BERT、Transformer XL、XLNet 等大型自然语言处理模型轮番在各大自然语言处理任务排行榜上刷新最佳纪录,可谓你方唱罢我登场。其中,GPT-2 由于其稳定、优异的性能吸引了业界的关注今年涌现出了许多机器学习的精彩应用,令人目不暇接,OpenAI 的 GPT-2 就是其中之一。它在文本生成上有着惊艳的表现,其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段语言模型的预期。仅从模型架构而言,GPT-2 并没有特别新颖的架构,它和只带有解码器的 tra...转载 2020-07-31 17:43:30 · 1853 阅读 · 0 评论 -
聊天机器人及Facebook Blender
1 聊天机器人定义 聊天机器人是经由对话或者文字进行交谈的计算机程序,能够模拟人类对话。 应用场景: 智能客服(电商,各垂直业务平台),智能音箱(小度,小爱),语音助手等。 2 聊天机器人常见实现方法总结 常见的有以下3种,即: 2.1 基于模板的聊天机器人 2.2 基于检索的聊天机器人 2.3 基于生成式的聊天机器人3 基于模板的聊天机器人 以下是个玩具版聊天机器人,为基于模板的....原创 2020-06-08 17:42:16 · 1624 阅读 · 3 评论 -
爱奇艺视频标签技术解析
本文转载自:https://mp.weixin.qq.com/s/gTdVJs8PEzy-8fbYfXOrHA前言随着短视频的兴起,每天有大量的短视频被生产并上传到各大视频平台,面对海量的短视频,如何提升这些短视频的智能分发效率是各大短视频平台面临的重要课题。视频的标签技术是内容理解的一种重要手段,已经在业界被广泛应用于推荐系统的各个环节:用户画像、召回、排序等。标签一般分为“类型标签...转载 2020-02-27 16:05:54 · 3288 阅读 · 0 评论 -
ALBERT 思想简介
前段时间简单看了下ALBERT 的paper(ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS), 简单记录下论文的思想,穿插一点点个人想法。 1 背景 1.1 从BERT以来,NLP的预训练模型变得越来越大,占用的 GPU/TPU显存越来越高。...原创 2019-11-29 12:01:30 · 1130 阅读 · 0 评论 -
损失函数loss总结
分类任务loss:二分类交叉熵损失sigmoid_cross_entropy:TensorFlow 接口:tf.losses.sigmoid_cross_entropy( multi_class_labels, logits, weights=1.0, label_smoothing=0, scope=None, loss_coll...转载 2019-03-29 19:31:33 · 1008 阅读 · 0 评论 -
深度学习与文本分类总结第二篇--大规模多标签文本分类
本文转载自:https://blog.csdn.net/liuchonge/article/details/77585222上一篇博客中我们已经总结了文本分类中常用的深度学习模型,因为知乎的本次竞赛是多标签的文本分类任务,这也是我第一次接触多标签分类,所以想单独写一篇博客来记录这方面的相关知识。 在这里首先列出几篇参考的文章:基于神经网络的多标签分类可以追溯到周志华在2006年发表的文章: Mul...转载 2018-07-03 16:20:21 · 2428 阅读 · 0 评论 -
深度学习与文本分类总结第一篇--常用模型总结
本文转载自: https://blog.csdn.net/liuchonge/article/details/77140719?locationNum=6&fps=1前面一段时间一直忙着参加知乎看山杯机器学习挑战赛,现在比赛结束了想着总结一下最近的收获。因为这是一个多标签多类别的文本分类问题,而且题目非常适合用深度学习相关的知识去做,正好结合着这个竞赛把之前一段时间的学习成果检验一下。接...转载 2018-07-03 16:18:52 · 3855 阅读 · 0 评论 -
跑keras模型涉及到的 keras降级
今天在服务器上跑一个HAN(Hierachical Attention network) 分类模型,使用的keras库,然后报错: TypeError: softmax() got an unexpected keyword argument 'axis'. 这种一般就是库版本的问题,升级了keras,tensorflow之后就可能有问题. 发现 tensorflo...原创 2018-06-26 17:17:57 · 4966 阅读 · 0 评论 -
深度学习解决NLP问题:语义相似度计算——DSSM
本文转载自: http://blog.csdn.net/u013074302/article/details/76422551导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应...转载 2018-05-24 22:11:57 · 1960 阅读 · 0 评论 -
『 论文阅读』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems
本文转载自: https://blog.csdn.net/shine19930820/article/details/78810984AbstractContributionData SetDSSM FOR USER MODELING IN RECOMMENDATION SYSTEMSword hashingDSSM训练MULTI-VIEW DEEP NEURAL NETWORKData inpu...转载 2018-05-26 16:34:07 · 1058 阅读 · 0 评论 -
DSSM & Multi-view DSSM TensorFlow实现
本文转载自: https://blog.csdn.net/shine19930820/article/details/79042567Learning Deep Structured Semantic Models for Web Search using Clickthrough Data以及其后续文章A Multi-View Deep Learning Approach for Cross D...转载 2018-05-25 15:47:50 · 2096 阅读 · 0 评论 -
Hierarchical Attention Network for Document Classification阅读笔记
本文转载自: https://blog.csdn.net/liuchonge/article/details/73610734最近看了”Hierarchical Attention Network for Document Classification”一篇文章,也在网上找了一些资料结合理解,发现在此之前有篇文章跟他提出的模型架构基本相似,只不过不包含attention机制:“Document ...转载 2018-07-03 17:34:39 · 434 阅读 · 0 评论 -
深度学习入门必须理解这25个概念
本文转载自: https://blog.csdn.net/pangjiuzala/article/details/72630166神经网络基础1)神经元(Neuron)——就像形成我们大脑基本元素的神经元一样,神经元形成神经网络的基本结构。想象一下,当我们得到新信息时我们该怎么做。当我们获取信息时,我们一般会处理它,然后生成一个输出。类似地,在神经网络的情况下,神经元接收输入,处理它并产...转载 2018-08-28 10:44:39 · 188 阅读 · 0 评论 -
源码解读之Pre-train
pre-train是迁移学习的基础,虽然Google已经发布了各种预训练好的模型,而且因为资源消耗巨大,自己再预训练也不现实(在Google Cloud TPU v2 上训练BERT-Base要花费近500刀,耗时达到两周。在GPU上可想而知只会更贵),但是学习bert的预训练方法可以为我们弄懂整个bert的运行流程提供莫大的帮助。预训练涉及到的模块有点多,所以这也将会是一篇长文,在能简略的地方我...转载 2019-01-15 11:09:11 · 881 阅读 · 0 评论 -
『TensorFlow』网络操作API中损失函数及分类器
本文转载自:https://www.cnblogs.com/hellcat/p/7039482.html目录一、误差值 l2_loss 二、分类器 sigmoid_cross_entropy_with_logits softmax log_softmax softmax_cross_entropy_with_logits sparse_softmax_cro...转载 2019-03-19 15:59:13 · 231 阅读 · 0 评论 -
pytorch使用torch.dtype、torch.device和torch.layout管理数据类型属性
本文转载自:https://ptorch.com/news/187.htmlpytorch从0.4开始提出了Tensor Attributes,主要包含了torch.dtype,torch.device,torch.layout。pytorch可以使用他们管理数据类型属性。以下内容为pytorch0.4文档内容,具体可以查看Tensor AttributesTensor Attribute...转载 2019-04-16 15:00:44 · 12806 阅读 · 0 评论 -
关于深度学习优化器 optimizer 的选择
在很多机器学习和深度学习的应用中,我们发现用的最多的优化器是 Adam,为什么呢?下面是 TensorFlow 中的优化器,https://www.tensorflow.org/api_guides/python/train在 keras 中也有 SGD,RMSprop,Adagrad,Adadelta,Adam 等:https://keras.io/optimizers/我们可...转载 2019-04-16 16:46:54 · 841 阅读 · 0 评论 -
以 linear_regression为例讲解神经网络实现基本步骤以及解读nn.Linear函数
参考:https://blog.csdn.net/dss_dssssd/article/details/83892824转载 2019-04-16 21:31:43 · 834 阅读 · 0 评论 -
GAN原理,优缺点、应用总结
1.GAN的 ‘前世’?大家都知道GAN是Ian Goodfellow 2 014年放出的一篇开山之作,在深度学习界评价很高,可以说GAN的出现,给深度学习界带来了很多的研究(shui)课(lun)题(wen)。但是如果说GAN是另外一种网络的变种,不知道你是否相信呢?但是有一个人是坚信不疑的,这个人就是德国AI科学家Jürgen Schmidhuber,说到这个人可能很多人不太了解,毕竟不是...转载 2019-08-16 18:03:04 · 688 阅读 · 0 评论 -
人脸检测论文:BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs 及其Pytorch实现
参考链接:https://blog.csdn.net/shanglianlm/article/details/95809339转载 2019-08-27 14:38:11 · 470 阅读 · 0 评论 -
检索之 乘积量化(Product Quantization)
本文转载自:https://www.cnblogs.com/mafuqiang/p/7161592.html乘积量化1。简介 乘积量化(PQ)算法是和VLAD算法是由法国INRIA实验室一同提出来的,为的是加快图像的检索速度,所以它是一种检索算法,在矢量量化(Vector Quantization,VQ)的基础上发展而来,虽然PQ不算是新算法,但是这种思想还是挺有用处的,本文没有添加公式。 它...转载 2018-03-16 17:52:49 · 2069 阅读 · 1 评论 -
提升深度学习模型的表现,你需要这20个技巧
选自machielearningmastery机器之心编译 作者:Jason Brownlee 参与:杜夏德、陈晨、吴攀、Terrence、李亚洲本文原文的作者 Jason Brownlee 是一位职业软件开发者,没有博士学位的他通过「从应用中学习」的方法自学了机器学习,他表示对帮助职业开发者应用机器学习来解决复杂问题很有热情,也为机器学习社区贡献了很多实用的建议和指南,本文所讲解的是「能帮助你对...转载 2018-03-08 20:34:22 · 3029 阅读 · 0 评论 -
tensorflow笔记 :常用函数说明
本文转载自:http://blog.csdn.net/u014595019/article/details/52805444tensorflow笔记系列: (一) tensorflow笔记:流程,概念和简单代码注释 (二) tensorflow笔记:多层CNN代码分析 (三) tensorflow笔记:多层LSTM代码分析 (四) tensorflow笔记:常用函数说明转载 2017-08-14 17:30:28 · 409 阅读 · 0 评论 -
用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践(转载)
本文转载自:http://blog.csdn.net/u013818406/article/details/69359816近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述:淘宝商品的一个典型的例子转载 2017-08-07 11:29:47 · 5395 阅读 · 0 评论 -
循环神经网络(RNN, Recurrent Neural Networks)介绍
本文转载自:http://blog.csdn.net/heyongluoyao8/article/details/48636251循环神经网络(RNN, Recurrent Neural Networks)介绍 这篇文章很多内容是参考:http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-par转载 2017-08-04 16:55:00 · 722 阅读 · 0 评论 -
用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
本文转载自:https://zhuanlan.zhihu.com/p/25928551近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述:淘宝商品的一个典型的例子见下图,图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖转载 2017-08-18 15:11:37 · 6946 阅读 · 1 评论 -
BAT资深算法工程师「Deep Learning」读书系列分享(一) | 分享总结
本文转载自:https://www.leiphone.com/news/201708/LEBNjZzvm0Q3Ipp0.html雷锋网 AI 科技评论按:「Deep Learning」这本书是机器学习领域的重磅书籍,三位作者分别是机器学习界名人、GAN的提出者、谷歌大脑研究科学家 Ian Goodfellow,神经网络领域创始三位创始人之一的蒙特利尔大学教授 Yoshua转载 2017-08-18 12:52:24 · 4077 阅读 · 0 评论 -
TensorFlow1.0 运行之前版本代码报错解决
1报错位置:.tf.scalar_summary('batch_loss', loss)AttributeError: 'module' object has no attribute 'scalar_summary'修改为:tf.summary.scalar('batch_loss', loss)原因:新版本做了调整2.AttributeError: 'module' object has转载 2017-08-09 21:56:00 · 458 阅读 · 0 评论 -
卷积神经网络CNN
本文转载自:http://www.cnblogs.com/nsnow/p/4562308.html转自:http://dataunion.org/11692.html 作者:张雨石自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cu转载 2017-08-01 15:57:16 · 682 阅读 · 1 评论 -
一文看懂神经网络工作原理
本文转载自:http://www.tuicool.com/articles/ZzuQnmI现在谈人工智能已经绕不开“神经网络”这个词了。人造神经网络粗线条地模拟人脑,使得计算机能够从数据中学习。机器学习这一强大的分支结束了 AI 的寒冬,迎来了人工智能的新时代。简而言之,神经网络可能是今天最具有根本颠覆性的技术。看完这篇神经网络的指南,你也可以和别人聊聊深度学习了。为此转载 2017-06-26 14:54:53 · 28036 阅读 · 2 评论 -
97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)
本文转载自:http://www.17bigdata.com/97-5%E5%87%86%E7%A1%AE%E7%8E%87%E7%9A%84%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%EF%BC%88%E5%AD%97%E5%B5%8C%E5%85%A5bi-lstmcrf%EF%BC%89.h转载 2017-04-23 09:37:29 · 28116 阅读 · 5 评论 -
用Tensorflow实现CNN文本分类(详细解释及TextCNN代码解释)
本文转载自:http://www.dataguru.cn/forum.php?mod=viewthread&tid=637971&extra=page=1&page=1Ox00: Motivation最近在研究Yoon Kim的一篇经典之作Convolutional Neural Networks for Sentence Classification,这篇文章可以说是cnn模型用于文转载 2017-08-14 19:57:40 · 44041 阅读 · 7 评论 -
深度学习网络调参技巧
本文转载自:https://zhuanlan.zhihu.com/p/24720954?utm_source=zhihu&utm_medium=social转载请注明:炼丹实验室之前曾经写过一篇文章,讲了一些深度学习训练的技巧,其中包含了部分调参心得:深度学习训练心得。不过由于一般深度学习实验,相比普通机器学习任务,时间较长,因此调参技巧就显得尤为重要。同时个人实践中,又有转载 2017-08-28 16:31:10 · 1910 阅读 · 0 评论 -
TensorFlow训练模型,指定GPU训练,设置显存,查看gpu占用
1 linux查看当前服务器GPU占用情况:nvidia-smi 周期性输出GPU使用情况: (如设置每3s显示一次GPU使用情况) watch -n 3 nvidia-smi 效果如下: 2 指定GPU训练,使用CUDA_VISIBLE_DEVICES来指定 如果要指定第2块GPU训练,可以在python代码中如下指定:import os os.environ['CUDA...原创 2018-02-28 16:42:19 · 8243 阅读 · 1 评论 -
Jetson TX1 开发教程(4)--TensorRT加速Caffe初探
项目地址:NVIDIA TensorRT前言TensorRT(GIE)是一个C++库,适用于Jetson TX1和Pascal架构的显卡(Tesla P100, K80, M4 and Titan X等),支持fp16特性,也就是半精度运算。由于采用了“精度换速度”的策略,在精度无明显下降的同时,其对inference的加速很明显,往往可以有一倍的性能提升,而且还支持使用caffe模型。目前网上关转载 2018-01-19 16:47:02 · 688 阅读 · 0 评论 -
循环神经网络(RNN, Recurrent Neural Networks)介绍
循环神经网络(RNN, Recurrent Neural Networks)介绍 这篇文章很多内容是参考:http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/,在这篇文章中,加入了一些新的内容与一些自己的理解。 循环神经网络(Recurrent转载 2017-12-21 23:54:25 · 946 阅读 · 0 评论 -
揭开Faiss的面纱 探究Facebook相似性搜索工具的原理
本文转载自:https://www.leiphone.com/news/201703/84gDbSOgJcxiC3DW.html本月初雷锋网报道,Facebook 开源了 AI 相似性搜索工具 Faiss。而在一个月之后的今天,Facebook 发布了对 Faiss 的官方原理介绍。它是一个能使开发者快速搜索相似多媒体文件的算法库。而该领域一直是传统的搜索引擎的短板。借助Fai转载 2017-12-20 09:49:07 · 5385 阅读 · 0 评论 -
Tensorflow版TextCNN主要代码解析
本文转载自:http://blog.csdn.net/u013818406/article/details/69530762上一篇转载了一些大规模文本分类的方法,其中就有TextCNN,这篇博客就主要解析一下Tensorflow版TextCNN的主要代码。[python] view plain copyimport tensorf转载 2017-12-01 20:13:47 · 810 阅读 · 0 评论 -
转载SSD和yolo代码解析(tensorflow版)
本文转载自:http://blog.csdn.net/u013818406/article/details/73724824SSD关键源码解析yolo源码解析yolov2和9000论文解析yolo论文解析转载 2017-12-01 20:10:17 · 740 阅读 · 0 评论