![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DeepLearning
文章平均质量分 79
百川AI
心怀热爱,奔赴山海
展开
-
【自学习】- 怎么让对话机器人越来越强?
对话机器人如果能够检测到服务失败的case,再强一点,最好还能够自动纠正,就和人一样,在学习中成长,在成长中学习,越来越强。理想和美好,那么怎么做呢?怎么学习呢?对话机器人在与人交互过程中,人的反应,例如赞扬、骂人、嘲笑等,这些反应满意度的指标,天然的就是标签数据,为我们对话助手的服务打上了满意度标签,如果能够挖掘出这种标签,那么会话助手就会再和人交互中发现badcase,然后利用badcase优化模型,从而优化对话助手让它越来越强,是不是有可能呢?......原创 2022-07-18 22:44:48 · 881 阅读 · 0 评论 -
【评论生成】AI生成评论,如何既相关又多样?
AI评论生成,如何既相关有多样?原创 2022-05-30 00:04:31 · 2960 阅读 · 1 评论 -
【Prefix-Tuning】Fine-tuning过时啦,NLG生成任务如何Tuning?
Fine-tuning范式大家肯定都再熟悉不过,微调所有语言模型参数,而从gpt3出现之后提出的in-context learning,还是越来越火的prompt,fine-tuning 已经out of state了。而这篇文章就提出prefix-tuning的nlg训练方法。原创 2022-05-16 00:50:40 · 2327 阅读 · 0 评论 -
NER的过去、现在和未来综述-过去篇
背景命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。评价指标使用实体级别的精确率、召回率、F1本文主要讲解NER历史使用过的一些方法,如果更关注于现在使用功能的一些方法,可以参考:基于词典和规则的方法利用词典,通过词典的先验信息,匹配出句子中的潜在实体,通过一些规则进行筛选。或者利用句式模板,抽取实体,例如模板"播放歌曲${song}",就可以将query="播放歌曲七里香"中的song=七原创 2021-10-14 00:38:31 · 988 阅读 · 0 评论 -
自学习-怎么让对话助手越来越强
对话助手在与人的直接交互过程中,一方面为人提供服务,另一方面,也可以通过人的反馈来进行学习并优化自己,那么具体怎么做呢?留坑,哈哈原创 2021-01-31 23:36:45 · 785 阅读 · 0 评论 -
我还不知道Attention有哪些-公式代码都带你搞定
attention由来已久,让它名声大噪的还是BERT,可以说NLP中,BERT之后,再无RNN和CNN。那么attention到底有哪些呢?代码上怎么实现呢?多头机制又是什么呢,且听分解原创 2020-11-30 23:55:58 · 1829 阅读 · 0 评论 -
RNN及其变种LSTM/GRU/SRU
RNN及其变种LSTM/GRU/SRU原创 2020-10-09 18:40:30 · 2857 阅读 · 2 评论 -
学习让机器学会学习-Meta Learning课程笔记-2
来源于李宏毅老师机器学习课程,笔记是其中meta learning部分,few-shot learning学习也可以观看此部分课程。课程主页:http://t.cn/Exykrk9video: http://t.cn/ExykrkCbilibili:https://www.bilibili.com/video/BV1Gb411n7dE?p=32原创 2020-10-09 18:25:04 · 1086 阅读 · 0 评论 -
学习让机器学会学习-Meta Learning课程笔记-1
来源于李宏毅老师机器学习课程,笔记是其中meta learning部分,few-shot learning学习也可以观看此部分课程。课程主页:http://t.cn/Exykrk9video: http://t.cn/ExykrkCbilibili:https://www.bilibili.com/video/BV1Gb411n7dE?p=32原创 2020-10-08 12:30:40 · 981 阅读 · 1 评论 -
NLP数据增强方法-动手实践
当前的模型基本求解的是数据集,而非任务,所以数据显得异常重要。图像中可以通过旋转、翻转变换、rgb转灰度、加入白噪声等方式增强数据,其语义不会发生改变,但是NLP中却往往发生语义改变,针对NLP的一些数据增强方法进行了探索。同义词替换应该是最早的方法, 通过对于语句中的同义词替换,保证语义不变性,根据同义词的来源,又可以分为几种方案WordNet通过WrodNet中的同义词召回相近似的词语,见from nltk.corpus import wordnetnltk.download('omw')原创 2020-07-28 23:53:59 · 1808 阅读 · 0 评论 -
【胶囊网络-CapsNet】Investigating Capsule Networks with Dynamic Routing for Text Classification
Investigating Capsule Networks with Dynamic Routing for Text Classification发表在EMNLP 2018文章目录ModelN-gram convolutional layerprimary capsule layerChild-Parent RelationshipsDynamic Routingconvolution...原创 2019-03-26 23:03:45 · 1554 阅读 · 0 评论 -
【胶囊网络-CapsNet】胶囊网络-CapsNet原理
动机CNN缺陷:无法从新的视角去理解对象。例如下图中,当图片角度发生变化,就会无法识别。CNN通过数据增强,即会将图片进行翻转,旋转等操作。会造成数据量变得非常大,降低训练速度。难以识别精确空间关系。比方说右图中尽管嘴巴的相对位置发生了改变,CNN仍会将其识别成人脸。最大池化。减少通过网络的数据的空间大小,从而增加了上层网络神经元的“视野”。丢失了大量信息,因为...原创 2019-04-01 23:24:28 · 9098 阅读 · 3 评论 -
ERNIE: Enhanced Language Representation with Informative Entities
ERNIE: Enhanced Language Representation with Informative Entities当前的预训练语言模型中没有融入KGs信息。而KGs能够为语言理解提供丰富的结构化信息。因此本文提出一种基于大规模语料和KGs训练的增强语言模型ERNIE。实验证明在knowledge-driven任务上,相比于bert取得显著提升。bert融合上下文,ernie融...原创 2019-06-11 22:40:55 · 2412 阅读 · 0 评论 -
斯坦福CS224n课程笔记1-introduction and Word vectors 2019
Human language and word meaning语言是一个低带宽的信息传输方式,相比于5G,这决定了语言的熵会很高。How do we have usable meaning in a computer?one-hot的字词表示:词语维度是很高的,而且有很多衍生的词语,接近于无限的维度。词语之间没有相似度,即one-hot向量是正交的,相似词语和不相似词语之间都是正交关系...原创 2019-07-01 23:37:35 · 423 阅读 · 0 评论 -
【Transformer】Transformer笔记
Attention is all you need文章目录AttentionMulti-head attentionSelf AttentionPosition EmbeddingtransformerencodersdecodersReferenceAttentionRNN要逐步递归获得全局信息,双向RNN一定程度解决上下文问题;yt=f(yt−1,xt)y_t=f(y_{t−1...原创 2019-07-21 18:33:16 · 392 阅读 · 0 评论 -
Domain Separation Networks-论文笔记
目的:what to transfer,以及如何有效避免negative transfer上。假设:所有的域之间有着公有的特征(Shared)和私有的特征(Private),如果将各个域的私有特征也进行迁移的话就会造成负迁移(negative transfer)。基于此,提出了Domain Separation Networks(DSNs)。Domain Separation Network...原创 2019-08-23 00:18:56 · 3000 阅读 · 4 评论 -
Adversarial Multi-task Learning for Text Classification-阅读笔记
Adversarial Multi-task Learning for Text ClassificationMTL中,通过共享网络层,以期望共享层提取与任务无关的特征,实际过程中可能会包含特定任务的特征或者无关的噪音。基于此,文章提出一个对抗的MTL框架,减少共有特种和私有特征之间的干扰。作者通过在16个不同分类任务上证明其方法可用性,同时,共有特征可以作为知识迁移到新的任务上。主要贡...原创 2019-08-26 23:51:16 · 926 阅读 · 0 评论 -
Multi-Task Networks With Universe, Group, and Task Feature Learning-阅读笔记
Multi-Task Networks With Universe, Group, and Task Feature Learning文章将任务区分为三个层次:单个任务。任务组(task group)全体任务(task universe)提出一些类MTL框架,包含并行网络结构、串行网络结构,在 ATIS, Snips和一个自有大数据集上表现良好。Parallel MTL Arc...原创 2019-08-27 00:17:47 · 664 阅读 · 0 评论 -
A Survey of Zero-Shot Learning: Settings, Methods, and Applications-阅读笔记
文章目录INTRODUCTIONzero-shot learning定义:Semantic spaceLearning settingsSEMANTIC SPACESEngineered Semantic SpacesAttribute spacesLexical spacesText-keyword spacesSome problem-specific spacesLearned Semant...原创 2019-08-28 23:28:17 · 1533 阅读 · 0 评论 -
Cross-Domain Review Helpfulness Prediction -论文阅读
Abstract问题:如何估计评论的有用性并将其恰当地推荐给消费者(review helpfulness prediction)当前方法缺点:每个域需要大量的标注数据。每个域之间是封闭的,当在某些域数据非常少、out-of-vocabulary问题时,需要每个域包含大量标注数据。本文提出基于CNN的模型来利用word-level和character-based表达,解决oov问题。并通过迁移...翻译 2019-09-01 22:08:34 · 1095 阅读 · 0 评论 -
『 论文阅读』Understanding deep learning requires rethinking generalization
ABSTRACTINTRODUCTION1 CONTRIBUTIONS11 Randomization tests12 The role of explicit regularization13 有限的样本表达 Finite sample expressivity14 The role of implicit regularizationEFFECTIVE CAPACITY原创 2017-05-04 10:30:10 · 3814 阅读 · 0 评论 -
【胶囊网络-CapsNet】李宏毅CapsNet课程笔记
Capsule神经网络和胶囊网络区别: 神经网络每个神经元输出的是一个标量,胶囊网络输出是一个向量。一个神经元检测一种pattern,例如一个神经元检测往左的鸟嘴,一个神经元是检测往右的鸟嘴。而胶囊是检测某一个种类的pattern。例如鸟嘴。其中,W1,W2W^1, W^2W1,W2是通过训练决定的,而C1,C2C_1, C_2C1,C2是通过动态路由算法得到的。可以拿max p...原创 2019-03-24 23:54:26 · 4505 阅读 · 0 评论 -
『 kaggle』kaggle-DATA-SCIENCE-BOWL-2018(U-net方法)
1. 赛题背景通过自动化细胞核检测,有利于检测细胞对各种治疗方法的反应,了解潜在生物学过程。队伍需要分析数据观察模式,抽象出问题并通过建立计算机模型识别各种条件下的一系列细胞核。2. 数据预处理数据分析数据集包含部分的分割核图像。由于其获取方式、细胞类型、放大倍数和呈现模式不同(brightfield vs. fluorescence),对算法的抽象概括能力较高。对于每...原创 2018-04-26 19:12:55 · 6773 阅读 · 7 评论 -
『 论文阅读』U-Net Convolutional Networks for Biomedical Image Segmentation
U-Net Convolutional Networks for Biomedical Image Segmentation用于生物医学图像分割的U-Net卷积网络Abstract普遍认为,深度网络的成功培训需要数千个带注释的训练样本。在本文中,提出了一种网络和培训策略,依靠强大的数据增强功能(data augmentation)更有效地使用可用的注释示例。该体系结构包括捕捉上下文...翻译 2018-04-26 18:55:19 · 6562 阅读 · 6 评论 -
『 DSSM』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems
AbstractContributionData SetDSSM FOR USER MODELING IN RECOMMENDATION SYSTEMSword hashingDSSM训练MULTI-VIEW DEEP NEURAL NETWORKData inputUser featuresNews featuresApp featuresMovieTV feature翻译 2017-12-15 11:23:05 · 10238 阅读 · 1 评论 -
DSSM & Multi-view DSSM TensorFlow实现
Learning Deep Structured Semantic Models for Web Search using Clickthrough Data以及其后续文章A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems的实现Demo。1. 数据D原创 2018-01-12 12:08:15 · 20690 阅读 · 33 评论 -
『DeepLearning』tensorFlow搭建CNN-mnist上手
CNN局部感知参数共享卷积核滑动的步长-stride卷积的边界处理-paddingDown-pooling全连接MNIST上手整体结构数据准备定义2维的 convolutional 图层定义pooling第一层卷积pooling第二层卷积pooling全连接层poolingsoftmax定义损失函数定义评估模型训练模型Reference一直关注DL,从Tens原创 2017-07-26 21:09:16 · 1749 阅读 · 0 评论 -
去噪自编码网络-Python Keras实现
自编码器是神经网络的一种,是一种无监督学习方法,使用了反向传播算法,目标是使输出=输入。自编码网络可以参考这篇介绍DeepLearning笔记–自编码网络本文实现了一个利用Keras(TensorFlow backend)实现的自编码网络。预览去噪结果(迭代100次):下面代码分析代码分析环境"""author=Aaronpython=3.5keras=2.0.6tensorflow=1.2原创 2017-08-13 23:29:23 · 11184 阅读 · 8 评论 -
DeepLearning笔记-自编码网络
DeepLearning笔记–自编码器自编码器是神经网络的一种,是一种无监督学习方法,使用了反向传播算法,目标是使输出=输入。 自编码器内部有隐藏层 ,可以产生编码表示输入。1986 年Rumelhart 提出。自编码器主要作用在于通过复现输出而捕捉可以代表输入的重要因素,利用中间隐层对输入的压缩表达,达到像PCA那样的找到原始信息主成分的效果。下图是一个自编码网络的例子,对于输入x(原创 2017-08-13 22:58:40 · 8737 阅读 · 0 评论 -
台大李宏毅机器学习课程
[机器学习入门] 台大李宏毅机器学习课程,转载来自:https://blog.csdn.net/soulmeetliang/article/details/77461607 TOPIC CONTENTS BLOG PDF VIDEO 【1】Learning Map(学习导图) blog pdf video 【2】Regression:...转载 2018-05-05 09:48:05 · 3320 阅读 · 2 评论 -
自然语言处理入门
自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。2.信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽...转载 2018-05-25 11:07:05 · 807 阅读 · 1 评论 -
『 论文阅读』:Convolutional Neural Networks for Sentence Classification
AbstractCNN应用于文本分类系列实验表明,使用很少超参合静态变量的CNN在多分类任务上表现出色。fine-tuning的词向量还能提高性能。本文同时利用了微调和静态的词向量(multi-channel)。1 IntroductWord vectors: train by Mikolov, on 100 billion words of Google News , 词向量...原创 2018-07-21 10:22:43 · 1570 阅读 · 0 评论 -
Doc Embedding-语义相似度计算
数据集公开数据集英文:GLUE数据集中的MNLI, QQP, QNLI, STS-B, MRPC, RTE ,[SWAG].STS基准收集了2012年至2017年国际语义评测SemEval中所有的英语数据。SICK数据集包含了10000对英语句子,其中的标签说明了它们之间的语义关联和逻辑关系[SEMEVAL-2012] (http://www.cs.york.ac.uk/semeva...原创 2019-01-07 22:28:25 · 6108 阅读 · 1 评论 -
BERT简单使用
文章目录Use BERT as feature环境入口最终结果预处理Use BERT as feature如何调用bert,将输入的语句输出为向量?如果在自己的代码中添加bert作为底层特征,需要官方例子run_classifier.py的那么多代码吗?环境mac:tf==1.4.0python=2.7windows:tf==1.12python=3.5入口调用预训...原创 2019-01-03 23:52:37 · 21796 阅读 · 21 评论 -
谷歌机器对话Self-Play框架M2M-Building a Conversational Agent Overnight with Dialogue Self-Play
Building a Conversational Agent Overnight with Dialogue Self-PlayGoogle提出了 Machines Talking To Machines(M2M,机器对话机器)的框架,这是一个功能导向的流程,用于训练对话智能体。其主要目标是通过自动化任务无关的步骤以减少建立对话数据集所需的代价,从而对话开发者只需要提供对话的任务特定的层面。...原创 2018-11-13 22:27:01 · 811 阅读 · 0 评论 -
BERT-Bidirectional Encoder Representations from Transformers
BERT, or Bidirectional Encoder Representations from TransformersBERT是google最新提出的NLP预训练方法,在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如分类、阅读理解)。 BERT优于以前的方法,因为它是用于预训练NLP的第一个**无监督,深度双向**系统。简单...原创 2018-11-06 22:27:45 · 5083 阅读 · 1 评论 -
ELMo - Deep contextualized word representations
Deep contextualized word representations (ELMo)最近NLP突飞猛进,现有ELMo,后有BERT,周末整理一波。glove以及word2vec的word embedding在nlp任务中都取得了最好的效果, 现在几乎没有一个NLP的任务中不加word embedding.常用的获取embedding方法都是通过训练language model, ...原创 2018-11-06 22:25:15 · 1079 阅读 · 1 评论 -
『 论文阅读』Slot-Gated Modeling for Joint Slot Filling and Intent Prediction
文章目录贡献:2. 模型2.1 底层特征:2.2 attention:2.3 slot-Gate:实验结果:conclusionReference来自论文:《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction》基于Attention的RNN模型在联合意图识别(ID)和槽位填充(SF)上实现最好性能(其ID和SF的...原创 2018-10-14 23:11:34 · 5863 阅读 · 9 评论 -
『 论文阅读』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling
文章目录1、加入Attention机制和对齐机制的RNN编码器-解码器模型1.1 底层特征:1.1.1 BiRNN(GRU or LSTM)1.2 attention:2、加入Attention机制的RNN模型。实验结果:ConclusionsReference来自于论文:《Attention-Based Recurrent Neural Network Models for Joint In...原创 2018-10-14 23:04:54 · 5092 阅读 · 4 评论 -
1x1的卷积-模型压缩
什么是卷积?如图:详细见卷积介绍。1x1的卷积如何实现模型压缩对于channel为1的图像,没有作用,对于大于1的图像就凸显作用了。举个例子,如图,输入图像是28x28x192,输出是28x28x32。如果卷积核为5x5x32时候,参数量是:(5x5x32 + 1)x 192 = 153792。中间加入一层1x1的卷积,降低输入的channel,再使用同样卷积核,参...原创 2018-08-23 20:10:28 · 1346 阅读 · 0 评论