自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AaronChou的博客

Done is better than perfect。

  • 博客(92)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

转载 读博士(工作)前要了解的20件事

机器学习大牛、谷歌AI总负责人Jeff Dean发推转帖,推荐了一篇刚毕业的博士生写的文章,内容与技术无关,而是关于攻读博士学位时需要注意的一些小tip。此文发表在《自然》官网的Career专栏上。**1.找到适合自己的计划和节奏,在工作与生活之间保持健康的平衡。**最好是在整个计划中保持良好的平衡,并稳定工作,而不是集中全部精力工作,把自己累得精疲力竭。学会照顾自己是成功的关键。**2....

2018-11-15 17:30:10 1592 2

原创 BERT-flow:bert的向量表达是SOTA吗?

On the Sentence Embeddings from Pre-trained Language Models 阅读笔记code : github/BERT-Flowsource : EMNLP 2020BERT在用于下游各项NLP任务上都有明显提升,但是被发现直接作为sentence embedding的预训练模型效果不好,作者发现这是因为没有很好地挖掘BERT里面的语义信息,作者从理论上证明了bert的训练目标(MLM,NSP)和相似度任务之间差异,并可视化展示。发现bert的语义空间是非

2021-02-24 11:50:51 6

原创 自学习-怎么让对话助手越来越强

对话助手在与人的直接交互过程中,一方面为人提供服务,另一方面,也可以通过人的反馈来进行学习并优化自己,那么具体怎么做呢?留坑,哈哈

2021-01-31 23:36:45 62

原创 我还不知道Attention有哪些-公式代码都带你搞定

attention由来已久,让它名声大噪的还是BERT,可以说NLP中,BERT之后,再无RNN和CNN。那么attention到底有哪些呢?代码上怎么实现呢?多头机制又是什么呢,且听分解

2020-11-30 23:55:58 61

原创 RNN及其变种LSTM/GRU/SRU

RNN及其变种LSTM/GRU/SRU

2020-10-09 18:40:30 239 2

原创 学习让机器学会学习-Meta Learning课程笔记-2

来源于李宏毅老师机器学习课程,笔记是其中meta learning部分,few-shot learning学习也可以观看此部分课程。课程主页:http://t.cn/Exykrk9video: http://t.cn/ExykrkCbilibili:https://www.bilibili.com/video/BV1Gb411n7dE?p=32

2020-10-09 18:25:04 59

原创 学习让机器学会学习-Meta Learning课程笔记-1

来源于李宏毅老师机器学习课程,笔记是其中meta learning部分,few-shot learning学习也可以观看此部分课程。课程主页:http://t.cn/Exykrk9video: http://t.cn/ExykrkCbilibili:https://www.bilibili.com/video/BV1Gb411n7dE?p=32

2020-10-08 12:30:40 118 1

原创 NLP数据增强方法-动手实践

当前的模型基本求解的是数据集,而非任务,所以数据显得异常重要。图像中可以通过旋转、翻转变换、rgb转灰度、加入白噪声等方式增强数据,其语义不会发生改变,但是NLP中却往往发生语义改变,针对NLP的一些数据增强方法进行了探索。同义词替换应该是最早的方法, 通过对于语句中的同义词替换,保证语义不变性,根据同义词的来源,又可以分为几种方案WordNet通过WrodNet中的同义词召回相近似的词语,见from nltk.corpus import wordnetnltk.download('omw')

2020-07-28 23:53:59 217

原创 BERT变形记-ERNIE

ERNIE 1.0如何将知识(knowledge)信息融入到模型训练中,一种方式是将知识信息作为输入,成本是其他人使用的时候也要构建知识库,并且fine-tune和pre-train的知识库分布不一致,fine-tune也会出现问题。另一种方式是将知识信息融入到训练任务中,ERNIE提出一种知识掩盖策略取代bert的mask,包含实体层面和短语级别的掩盖,实验验证了这种策略的有效性,多阶段的maskBasic-Level Masking和bert一样,随机选取token做mask。Phrase

2020-05-09 23:05:44 499

原创 NLP数据增强方法-(一)

分类的增强方法EDA-Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks提出了数据增强方法:synonym replacement(SR):随机选取句子中n个非停用词的词语。对于每个词语随机选取它的一个同义词替换该词语。random insertion(R...

2019-12-31 23:23:26 454

翻译 Cross-Domain Review Helpfulness Prediction -论文阅读

Abstract问题:如何估计评论的有用性并将其恰当地推荐给消费者(review helpfulness prediction)当前方法缺点:每个域需要大量的标注数据。每个域之间是封闭的,当在某些域数据非常少、out-of-vocabulary问题时,需要每个域包含大量标注数据。本文提出基于CNN的模型来利用word-level和character-based表达,解决oov问题。并通过迁移...

2019-09-01 22:08:34 266

原创 A Survey of Zero-Shot Learning: Settings, Methods, and Applications-阅读笔记

文章目录INTRODUCTIONzero-shot learning定义:Semantic spaceLearning settingsSEMANTIC SPACESEngineered Semantic SpacesAttribute spacesLexical spacesText-keyword spacesSome problem-specific spacesLearned Semant...

2019-08-28 23:28:17 647

原创 Multi-Task Networks With Universe, Group, and Task Feature Learning-阅读笔记

Multi-Task Networks With Universe, Group, and Task Feature Learning文章将任务区分为三个层次:单个任务。任务组(task group)全体任务(task universe)提出一些类MTL框架,包含并行网络结构、串行网络结构,在 ATIS, Snips和一个自有大数据集上表现良好。Parallel MTL Arc...

2019-08-27 00:17:47 295

原创 Adversarial Multi-task Learning for Text Classification-阅读笔记

Adversarial Multi-task Learning for Text ClassificationMTL中,通过共享网络层,以期望共享层提取与任务无关的特征,实际过程中可能会包含特定任务的特征或者无关的噪音。基于此,文章提出一个对抗的MTL框架,减少共有特种和私有特征之间的干扰。作者通过在16个不同分类任务上证明其方法可用性,同时,共有特征可以作为知识迁移到新的任务上。主要贡...

2019-08-26 23:51:16 313

原创 Domain Separation Networks-论文笔记

目的:what to transfer,以及如何有效避免negative transfer上。假设:所有的域之间有着公有的特征(Shared)和私有的特征(Private),如果将各个域的私有特征也进行迁移的话就会造成负迁移(negative transfer)。基于此,提出了Domain Separation Networks(DSNs)。Domain Separation Network...

2019-08-23 00:18:56 915

原创 【Transformer】Transformer笔记

Attention is all you need文章目录AttentionMulti-head attentionSelf AttentionPosition EmbeddingtransformerencodersdecodersReferenceAttentionRNN要逐步递归获得全局信息,双向RNN一定程度解决上下文问题;yt=f(yt−1,xt)y_t=f(y_{t−1...

2019-07-21 18:33:16 139

原创 斯坦福CS224n课程笔记1-introduction and Word vectors 2019

Human language and word meaning语言是一个低带宽的信息传输方式,相比于5G,这决定了语言的熵会很高。How do we have usable meaning in a computer?one-hot的字词表示:词语维度是很高的,而且有很多衍生的词语,接近于无限的维度。词语之间没有相似度,即one-hot向量是正交的,相似词语和不相似词语之间都是正交关系...

2019-07-01 23:37:35 199

原创 ERNIE: Enhanced Language Representation with Informative Entities

ERNIE: Enhanced Language Representation with Informative Entities当前的预训练语言模型中没有融入KGs信息。而KGs能够为语言理解提供丰富的结构化信息。因此本文提出一种基于大规模语料和KGs训练的增强语言模型ERNIE。实验证明在knowledge-driven任务上,相比于bert取得显著提升。bert融合上下文,ernie融...

2019-06-11 22:40:55 1143

原创 【胶囊网络-CapsNet】胶囊网络-CapsNet原理

动机CNN缺陷:无法从新的视角去理解对象。例如下图中,当图片角度发生变化,就会无法识别。CNN通过数据增强,即会将图片进行翻转,旋转等操作。会造成数据量变得非常大,降低训练速度。难以识别精确空间关系。比方说右图中尽管嘴巴的相对位置发生了改变,CNN仍会将其识别成人脸。最大池化。减少通过网络的数据的空间大小,从而增加了上层网络神经元的“视野”。丢失了大量信息,因为...

2019-04-01 23:24:28 3728 2

原创 【胶囊网络-CapsNet】Investigating Capsule Networks with Dynamic Routing for Text Classification

Investigating Capsule Networks with Dynamic Routing for Text Classification发表在EMNLP 2018文章目录ModelN-gram convolutional layerprimary capsule layerChild-Parent RelationshipsDynamic Routingconvolution...

2019-03-26 23:03:45 788

原创 【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

Capsule神经网络和胶囊网络区别: 神经网络每个神经元输出的是一个标量,胶囊网络输出是一个向量。一个神经元检测一种pattern,例如一个神经元检测往左的鸟嘴,一个神经元是检测往右的鸟嘴。而胶囊是检测某一个种类的pattern。例如鸟嘴。其中,W1,W2W^1, W^2W1,W2是通过训练决定的,而C1,C2C_1, C_2C1​,C2​是通过动态路由算法得到的。可以拿max p...

2019-03-24 23:54:26 3012

原创 Doc Embedding-语义相似度计算

数据集公开数据集英文:GLUE数据集中的MNLI, QQP, QNLI, STS-B, MRPC, RTE ,[SWAG].STS基准收集了2012年至2017年国际语义评测SemEval中所有的英语数据。SICK数据集包含了10000对英语句子,其中的标签说明了它们之间的语义关联和逻辑关系[SEMEVAL-2012] (http://www.cs.york.ac.uk/semeva...

2019-01-07 22:28:25 3991

原创 BERT简单使用

文章目录Use BERT as feature环境入口最终结果预处理Use BERT as feature如何调用bert,将输入的语句输出为向量?如果在自己的代码中添加bert作为底层特征,需要官方例子run_classifier.py的那么多代码吗?环境mac:tf==1.4.0python=2.7windows:tf==1.12python=3.5入口调用预训...

2019-01-03 23:52:37 16216 20

原创 谷歌机器对话Self-Play框架M2M-Building a Conversational Agent Overnight with Dialogue Self-Play

Building a Conversational Agent Overnight with Dialogue Self-PlayGoogle提出了 Machines Talking To Machines(M2M,机器对话机器)的框架,这是一个功能导向的流程,用于训练对话智能体。其主要目标是通过自动化任务无关的步骤以减少建立对话数据集所需的代价,从而对话开发者只需要提供对话的任务特定的层面。...

2018-11-13 22:27:01 412

原创 对话系统

本文是个人笔记,来源于资料标注与reference中。对话系统涉及的五种主要技术。语音识别(ASR)口语理解(SLU)对话管理(DM)自然语言生成(NLG)文本生成语音(TTS)口语理解-SLU输入经过ASR输出的语句,将其转换为语义表示,如frame形式,包含intent和多个槽位,如订票系统中的:speechActType,departureCity,destination...

2018-11-13 22:23:59 1371

原创 BERT-Bidirectional Encoder Representations from Transformers

BERT, or Bidirectional Encoder Representations from TransformersBERT是google最新提出的NLP预训练方法,在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如分类、阅读理解)。 BERT优于以前的方法,因为它是用于预训练NLP的第一个**无监督,深度双向**系统。简单...

2018-11-06 22:27:45 2773 1

原创 ELMo - Deep contextualized word representations

Deep contextualized word representations (ELMo)最近NLP突飞猛进,现有ELMo,后有BERT,周末整理一波。glove以及word2vec的word embedding在nlp任务中都取得了最好的效果, 现在几乎没有一个NLP的任务中不加word embedding.常用的获取embedding方法都是通过训练language model, ...

2018-11-06 22:25:15 751 1

原创 『 论文阅读』Slot-Gated Modeling for Joint Slot Filling and Intent Prediction

文章目录贡献:2. 模型2.1 底层特征:2.2 attention:2.3 slot-Gate:实验结果:conclusionReference来自论文:《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction》基于Attention的RNN模型在联合意图识别(ID)和槽位填充(SF)上实现最好性能(其ID和SF的...

2018-10-14 23:11:34 3430 6

原创 『 论文阅读』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

文章目录1、加入Attention机制和对齐机制的RNN编码器-解码器模型1.1 底层特征:1.1.1 BiRNN(GRU or LSTM)1.2 attention:2、加入Attention机制的RNN模型。实验结果:ConclusionsReference来自于论文:《Attention-Based Recurrent Neural Network Models for Joint In...

2018-10-14 23:04:54 3240 4

原创 1x1的卷积-模型压缩

什么是卷积?如图:详细见卷积介绍。1x1的卷积如何实现模型压缩对于channel为1的图像,没有作用,对于大于1的图像就凸显作用了。举个例子,如图,输入图像是28x28x192,输出是28x28x32。如果卷积核为5x5x32时候,参数量是:(5x5x32 + 1)x 192 = 153792。中间加入一层1x1的卷积,降低输入的channel,再使用同样卷积核,参...

2018-08-23 20:10:28 694

转载 计算机会议排名

CORE Computer Science Conference Rankings Acronym Standard Name Rank AAAI National Conference of the American Association for Artificial Intelligence A+ AAMAS International Co...

2018-07-30 17:39:11 2200

原创 『 论文阅读』:Convolutional Neural Networks for Sentence Classification

AbstractCNN应用于文本分类系列实验表明,使用很少超参合静态变量的CNN在多分类任务上表现出色。fine-tuning的词向量还能提高性能。本文同时利用了微调和静态的词向量(multi-channel)。1 IntroductWord vectors: train by Mikolov, on 100 billion words of Google News , 词向量...

2018-07-21 10:22:43 1066

原创 『 论文阅读』LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree

Abstract1. Introduction2. Preliminaries2.1 GBDT and Its Complexity Analysis2.2 Related Work3. Gradient-based One-Side Sampling3.1 Algorithm Description3.2 Theoretical Analysis4 Exclusive...

2018-07-03 10:29:05 12732 10

原创 『Gradient Boosting 』LightGBM与XGBoost对比

LightGBM和XGBoost都是GBDT的高效实现,所以先简单介绍下GBDT。1. Gradient Boosting Decision Tree提升树的学习优化过程中,损失函数平方损失和指数损失时候,每一步优化相对简单,但对于一般损失函数优化的问题,Freidman提出了Gradient Boosting算法,其利用了损失函数的负梯度在当前模型的值 −[∂L(y,f(xi))∂...

2018-07-03 10:22:27 1073

转载 自然语言处理入门

自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。2.信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽...

2018-05-25 11:07:05 601 1

转载 台大李宏毅机器学习课程

[机器学习入门] 台大李宏毅机器学习课程,转载来自:https://blog.csdn.net/soulmeetliang/article/details/77461607 TOPIC CONTENTS BLOG PDF VIDEO 【1】Learning Map(学习导图) blog pdf video 【2】Regression:...

2018-05-05 09:48:05 2946 2

原创 『 kaggle』kaggle-DATA-SCIENCE-BOWL-2018(U-net方法)

1. 赛题背景通过自动化细胞核检测,有利于检测细胞对各种治疗方法的反应,了解潜在生物学过程。队伍需要分析数据观察模式,抽象出问题并通过建立计算机模型识别各种条件下的一系列细胞核。2. 数据预处理数据分析数据集包含部分的分割核图像。由于其获取方式、细胞类型、放大倍数和呈现模式不同(brightfield vs. fluorescence),对算法的抽象概括能力较高。对于每...

2018-04-26 19:12:55 3088 5

翻译 『 论文阅读』10 CHALLENGING PROBLEMS IN DATA MINING RESEARCH

很多不错论文都引用了此篇论文,于是阅读了这篇06年论文。Abstract介绍数据挖掘中的10个具有挑战性的问题,分析数据挖掘问题出现位置的一份高级指南。 这篇文章是作者通过咨询一些最活跃的数据挖掘和机器学习研究人员(IEEE ICDM和ACM KDD会议的组织者),就他们对未来数据挖掘研究的重要和有价值的主题发表的意见。1. Developing a Unifying T...

2018-04-26 19:09:37 463 4

翻译 『 论文阅读』U-Net Convolutional Networks for Biomedical Image Segmentation

U-Net Convolutional Networks for Biomedical Image Segmentation用于生物医学图像分割的U-Net卷积网络Abstract普遍认为,深度网络的成功培训需要数千个带注释的训练样本。在本文中,提出了一种网络和培训策略,依靠强大的数据增强功能(data augmentation)更有效地使用可用的注释示例。该体系结构包括捕捉上下文...

2018-04-26 18:55:19 3673 6

原创 算法面试和实习经验分享

本人是2018届,去年实习拿了阿里算法工程师offer,最终顺利转正,也是看了师兄师姐的经验,饮水思源,于是将自己的总结一份,希望能够帮到师弟师妹。1. 学习准备What you want?想清楚自己要做什么?Follow自己的兴趣方向 OR 现在什么挣钱最多?算法对理论和最新paper的学习,而且是长期的,能否承受。算法各大公司HC是最少的,而竞争人数在爆炸增长。 ...

2018-04-26 18:53:19 3791 4

xgboost导读和实战

xgboost导读和实战

2017-01-12

请问如何恢复回收站的帖子

发表于 2018-01-22 最后回复 2018-09-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除