自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

百川的博客

Done is better than perfect。

  • 博客(108)
  • 收藏
  • 关注

转载 读博士(工作)前要了解的20件事

机器学习大牛、谷歌AI总负责人Jeff Dean发推转帖,推荐了一篇刚毕业的博士生写的文章,内容与技术无关,而是关于攻读博士学位时需要注意的一些小tip。此文发表在《自然》官网的Career专栏上。**1.找到适合自己的计划和节奏,在工作与生活之间保持健康的平衡。**最好是在整个计划中保持良好的平衡,并稳定工作,而不是集中全部精力工作,把自己累得精疲力竭。学会照顾自己是成功的关键。**2....

2018-11-15 17:30:10 2613 2

原创 「论文阅读」还在手写Prompt,自动Prompt搜索超越人类水平

手写prompt确实很费脑筋,但其实本身大语言模型就是一个很好的自动prompt工具,文章提出自动prompt工程(Automatic Prompt Engineer),利用语言模型+蒙特卡洛搜索 自动的寻找最优的Prompt样例,最终在多项任务的效果几乎达到人类水平。

2024-04-07 17:55:10 638

原创 「AIGC」- ChatGPT可以怎么玩?

chatGPT这么火,这几天一番体验之后,除了惊叹,同时也引发了作为程序员的担忧:我的工作是否会被AI取代?这个问题很难不引起焦虑,但是我们可以换一个角度,可以用这些生成类的工作,做些什么提高我们的工(zao)作(dian)效(xia)率(ban)?就像我们当初使用搜索引擎一样...

2023-04-02 23:11:05 3870 1

原创 【自学习】- 怎么让对话机器人越来越强?

对话机器人如果能够检测到服务失败的case,再强一点,最好还能够自动纠正,就和人一样,在学习中成长,在成长中学习,越来越强。理想和美好,那么怎么做呢?怎么学习呢?对话机器人在与人交互过程中,人的反应,例如赞扬、骂人、嘲笑等,这些反应满意度的指标,天然的就是标签数据,为我们对话助手的服务打上了满意度标签,如果能够挖掘出这种标签,那么会话助手就会再和人交互中发现badcase,然后利用badcase优化模型,从而优化对话助手让它越来越强,是不是有可能呢?......

2022-07-18 22:44:48 864

原创 【问答对话】kbqa?开放域问答怎么有知识地生成

开放域问答怎么有知识地生成最近流行的大模型,如GPT-3也在开放域问答上有一定的能力,那么如何在大的语言模型基础上融合知识呢,其实主要面临两个问题,1)检索什么知识,怎么检索。2)怎么讲检索知识加入。......

2022-07-11 00:09:28 903

原创 【评论生成】AI生成评论,如何既相关又多样?

AI评论生成,如何既相关有多样?

2022-05-30 00:04:31 2750 1

原创 【Prefix-Tuning】Fine-tuning过时啦,NLG生成任务如何Tuning?

Fine-tuning范式大家肯定都再熟悉不过,微调所有语言模型参数,而从gpt3出现之后提出的in-context learning,还是越来越火的prompt,fine-tuning 已经out of state了。而这篇文章就提出prefix-tuning的nlg训练方法。

2022-05-16 00:50:40 2274

原创 【任务型对话】任务型对话中的自然语言生成

任务型对话中,一般包含ASR、语义理解、多轮状态追踪、会话策略、自然语言生成(NLG)模块,那么任务型对话中都有哪些生成的方法呢?基于模板因为任务型对话中,生成任务有两个作用,1. 向用户传递信息,例如搜索到的机票信息(inform_槽位)等,提供给用户选择。2. 进行用户问询,主要是ontology中定义好的字段,比如常见的订票场景中的出发地、目的地(request_槽位)等。因此,可以事先针对传递信息、用户问询的槽位,设计好模板,然后实际应用时,将其中的槽位使用对应的值替换即可。例如:Con.

2022-04-17 18:32:45 1478

原创 【多轮对话】多轮对话状态追踪技术综述

对话状态定义:对话一个会话状态S_t,它包含知道前当前轮次t的对话历史的总结,S_t中包含了系统选择下一步action的所有信息。S_t一般都是槽位状态的分布。(意图也可以作为一种槽位状态)会话状态跟踪就是根据所有的历史上下文信息,获得到当前轮的会话状态。

2022-02-28 13:00:58 3195

原创 【任务型对话】从ARML看亚马逊的语义表达式

在任务型的话中,一般会包含一个语义理解模块,会将用户query转化为domain、intent、slot的表示,但是面对跨域、细粒度的槽位、数以万计的技能,表示就难以表达query的语义了。于是亚马逊提出了一种新的语义表达方式,相比于之前的domain、intent、slot体系,能够支持跨域的query、细粒度的实体类型、复杂的句子和表达。

2021-12-30 22:58:40 936

原创 【多轮对话】从微软源码看用户模拟器构建

用户模拟器是在任务型多轮对话场景中,用于模拟用户在指定目标下多轮对话过程,可以用于生成对话数据,以及通过强化的方式训练系统决策。在具体的任务型场景需要定义有哪些用户行为、用户意图、用户可能说的槽位等,而之后用户模拟器是怎么来推进对话过程的呢?

2021-12-29 23:24:09 1136

原创 【多轮对话】任务型多轮对话数据集和采集方法

研究任务型对话系统,首先得从数据集采集说起,学术界需要公开的数据集来证明模型的效果,工业界更需要以数据集为基础来构建更鲁棒的对话系统,那么业界成熟的对话系统数据集有哪些呢,对于多轮,如何更科学的采集数据减少错误呢,本文调研了一些近来一些方案供参考。WoZ&MultiWOZA Network-based End-to-End Trainable Task-oriented Dialogue System提出了woz frameworkNeural Belief Tracker: Data-Dr

2021-11-23 00:01:59 3561 1

原创 【多轮对话】任务型多轮对话状态跟踪-NBT原理

让机器像人一样自由的对话,对话机器人必然要具备连续对话的能力,即多轮对话,多轮对话不用多讲,那么什么是多轮对话状态跟踪呢(DST, dialogue state tracker | belief traker)?在会话的每一步需要去预测用户的目标,然后会话策略给于用户正确的用响应,但用户目标是一个不可观测的隐状态,所以需要通过观测用户历史utterence、系统历史响应,然后获得belief state,通过belief state来表示用户目标。那么什么是会话状态(belief state): 对话的

2021-11-03 23:49:22 1481

原创 NER的过去、现在和未来综述-未来

背景命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。本文主要讲关于NER在2021后的一些发展的点

2021-11-03 20:32:25 984

原创 NER的过去、现在和未来综述-现在

命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。之前的过去篇:[NER的过去、现在和未来综述-过去篇]过去和现在是相对于某个时间节点的,暂且以bert作为这个时间节点,本文就主要寻找NER在BERT之后的一些方法。本文将从以下方面展开:(https://zhuanlan.zhihu.com/p/351132129)解码框架(Framework)这里归类的解码器似乎也不太合适,但是也找不到

2021-10-25 00:28:51 1260

原创 NER的过去、现在和未来综述-过去篇

背景命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。评价指标使用实体级别的精确率、召回率、F1本文主要讲解NER历史使用过的一些方法,如果更关注于现在使用功能的一些方法,可以参考:基于词典和规则的方法利用词典,通过词典的先验信息,匹配出句子中的潜在实体,通过一些规则进行筛选。或者利用句式模板,抽取实体,例如模板"播放歌曲${song}",就可以将query="播放歌曲七里香"中的song=七

2021-10-14 00:38:31 975

原创 BERT-flow:bert的向量表达是SOTA吗?

On the Sentence Embeddings from Pre-trained Language Models 阅读笔记code : github/BERT-Flowsource : EMNLP 2020BERT在用于下游各项NLP任务上都有明显提升,但是被发现直接作为sentence embedding的预训练模型效果不好,作者发现这是因为没有很好地挖掘BERT里面的语义信息,作者从理论上证明了bert的训练目标(MLM,NSP)和相似度任务之间差异,并可视化展示。发现bert的语义空间是非

2021-02-24 11:50:51 1353

原创 自学习-怎么让对话助手越来越强

对话助手在与人的直接交互过程中,一方面为人提供服务,另一方面,也可以通过人的反馈来进行学习并优化自己,那么具体怎么做呢?留坑,哈哈

2021-01-31 23:36:45 781

原创 我还不知道Attention有哪些-公式代码都带你搞定

attention由来已久,让它名声大噪的还是BERT,可以说NLP中,BERT之后,再无RNN和CNN。那么attention到底有哪些呢?代码上怎么实现呢?多头机制又是什么呢,且听分解

2020-11-30 23:55:58 1794

原创 RNN及其变种LSTM/GRU/SRU

RNN及其变种LSTM/GRU/SRU

2020-10-09 18:40:30 2827 2

原创 学习让机器学会学习-Meta Learning课程笔记-2

来源于李宏毅老师机器学习课程,笔记是其中meta learning部分,few-shot learning学习也可以观看此部分课程。课程主页:http://t.cn/Exykrk9video: http://t.cn/ExykrkCbilibili:https://www.bilibili.com/video/BV1Gb411n7dE?p=32

2020-10-09 18:25:04 1081

原创 学习让机器学会学习-Meta Learning课程笔记-1

来源于李宏毅老师机器学习课程,笔记是其中meta learning部分,few-shot learning学习也可以观看此部分课程。课程主页:http://t.cn/Exykrk9video: http://t.cn/ExykrkCbilibili:https://www.bilibili.com/video/BV1Gb411n7dE?p=32

2020-10-08 12:30:40 975 1

原创 NLP数据增强方法-动手实践

当前的模型基本求解的是数据集,而非任务,所以数据显得异常重要。图像中可以通过旋转、翻转变换、rgb转灰度、加入白噪声等方式增强数据,其语义不会发生改变,但是NLP中却往往发生语义改变,针对NLP的一些数据增强方法进行了探索。同义词替换应该是最早的方法, 通过对于语句中的同义词替换,保证语义不变性,根据同义词的来源,又可以分为几种方案WordNet通过WrodNet中的同义词召回相近似的词语,见from nltk.corpus import wordnetnltk.download('omw')

2020-07-28 23:53:59 1780

原创 BERT+实体-百度ERNIE优化了啥

ERNIE 1.0如何将知识(knowledge)信息融入到模型训练中,一种方式是将知识信息作为输入,成本是其他人使用的时候也要构建知识库,并且fine-tune和pre-train的知识库分布不一致,fine-tune也会出现问题。另一种方式是将知识信息融入到训练任务中,ERNIE提出一种知识掩盖策略取代bert的mask,包含实体层面和短语级别的掩盖,实验验证了这种策略的有效性,多阶段的maskBasic-Level Masking和bert一样,随机选取token做mask。Phrase

2020-05-09 23:05:44 1940

原创 NLP数据增强方法-(一)

分类的增强方法EDA-Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks提出了数据增强方法:synonym replacement(SR):随机选取句子中n个非停用词的词语。对于每个词语随机选取它的一个同义词替换该词语。random insertion(R...

2019-12-31 23:23:26 1600

翻译 Cross-Domain Review Helpfulness Prediction -论文阅读

Abstract问题:如何估计评论的有用性并将其恰当地推荐给消费者(review helpfulness prediction)当前方法缺点:每个域需要大量的标注数据。每个域之间是封闭的,当在某些域数据非常少、out-of-vocabulary问题时,需要每个域包含大量标注数据。本文提出基于CNN的模型来利用word-level和character-based表达,解决oov问题。并通过迁移...

2019-09-01 22:08:34 1084

原创 A Survey of Zero-Shot Learning: Settings, Methods, and Applications-阅读笔记

文章目录INTRODUCTIONzero-shot learning定义:Semantic spaceLearning settingsSEMANTIC SPACESEngineered Semantic SpacesAttribute spacesLexical spacesText-keyword spacesSome problem-specific spacesLearned Semant...

2019-08-28 23:28:17 1522

原创 Multi-Task Networks With Universe, Group, and Task Feature Learning-阅读笔记

Multi-Task Networks With Universe, Group, and Task Feature Learning文章将任务区分为三个层次:单个任务。任务组(task group)全体任务(task universe)提出一些类MTL框架,包含并行网络结构、串行网络结构,在 ATIS, Snips和一个自有大数据集上表现良好。Parallel MTL Arc...

2019-08-27 00:17:47 658

原创 Adversarial Multi-task Learning for Text Classification-阅读笔记

Adversarial Multi-task Learning for Text ClassificationMTL中,通过共享网络层,以期望共享层提取与任务无关的特征,实际过程中可能会包含特定任务的特征或者无关的噪音。基于此,文章提出一个对抗的MTL框架,减少共有特种和私有特征之间的干扰。作者通过在16个不同分类任务上证明其方法可用性,同时,共有特征可以作为知识迁移到新的任务上。主要贡...

2019-08-26 23:51:16 908

原创 Domain Separation Networks-论文笔记

目的:what to transfer,以及如何有效避免negative transfer上。假设:所有的域之间有着公有的特征(Shared)和私有的特征(Private),如果将各个域的私有特征也进行迁移的话就会造成负迁移(negative transfer)。基于此,提出了Domain Separation Networks(DSNs)。Domain Separation Network...

2019-08-23 00:18:56 2897 4

原创 【Transformer】Transformer笔记

Attention is all you need文章目录AttentionMulti-head attentionSelf AttentionPosition EmbeddingtransformerencodersdecodersReferenceAttentionRNN要逐步递归获得全局信息,双向RNN一定程度解决上下文问题;yt=f(yt−1,xt)y_t=f(y_{t−1...

2019-07-21 18:33:16 366

原创 斯坦福CS224n课程笔记1-introduction and Word vectors 2019

Human language and word meaning语言是一个低带宽的信息传输方式,相比于5G,这决定了语言的熵会很高。How do we have usable meaning in a computer?one-hot的字词表示:词语维度是很高的,而且有很多衍生的词语,接近于无限的维度。词语之间没有相似度,即one-hot向量是正交的,相似词语和不相似词语之间都是正交关系...

2019-07-01 23:37:35 418

原创 ERNIE: Enhanced Language Representation with Informative Entities

ERNIE: Enhanced Language Representation with Informative Entities当前的预训练语言模型中没有融入KGs信息。而KGs能够为语言理解提供丰富的结构化信息。因此本文提出一种基于大规模语料和KGs训练的增强语言模型ERNIE。实验证明在knowledge-driven任务上,相比于bert取得显著提升。bert融合上下文,ernie融...

2019-06-11 22:40:55 2396

原创 【胶囊网络-CapsNet】胶囊网络-CapsNet原理

动机CNN缺陷:无法从新的视角去理解对象。例如下图中,当图片角度发生变化,就会无法识别。CNN通过数据增强,即会将图片进行翻转,旋转等操作。会造成数据量变得非常大,降低训练速度。难以识别精确空间关系。比方说右图中尽管嘴巴的相对位置发生了改变,CNN仍会将其识别成人脸。最大池化。减少通过网络的数据的空间大小,从而增加了上层网络神经元的“视野”。丢失了大量信息,因为...

2019-04-01 23:24:28 8986 3

原创 【胶囊网络-CapsNet】Investigating Capsule Networks with Dynamic Routing for Text Classification

Investigating Capsule Networks with Dynamic Routing for Text Classification发表在EMNLP 2018文章目录ModelN-gram convolutional layerprimary capsule layerChild-Parent RelationshipsDynamic Routingconvolution...

2019-03-26 23:03:45 1535

原创 【胶囊网络-CapsNet】李宏毅CapsNet课程笔记

Capsule神经网络和胶囊网络区别: 神经网络每个神经元输出的是一个标量,胶囊网络输出是一个向量。一个神经元检测一种pattern,例如一个神经元检测往左的鸟嘴,一个神经元是检测往右的鸟嘴。而胶囊是检测某一个种类的pattern。例如鸟嘴。其中,W1,W2W^1, W^2W1,W2是通过训练决定的,而C1,C2C_1, C_2C1​,C2​是通过动态路由算法得到的。可以拿max p...

2019-03-24 23:54:26 4474

原创 Doc Embedding-语义相似度计算

数据集公开数据集英文:GLUE数据集中的MNLI, QQP, QNLI, STS-B, MRPC, RTE ,[SWAG].STS基准收集了2012年至2017年国际语义评测SemEval中所有的英语数据。SICK数据集包含了10000对英语句子,其中的标签说明了它们之间的语义关联和逻辑关系[SEMEVAL-2012] (http://www.cs.york.ac.uk/semeva...

2019-01-07 22:28:25 6049 1

原创 BERT简单使用

文章目录Use BERT as feature环境入口最终结果预处理Use BERT as feature如何调用bert,将输入的语句输出为向量?如果在自己的代码中添加bert作为底层特征,需要官方例子run_classifier.py的那么多代码吗?环境mac:tf==1.4.0python=2.7windows:tf==1.12python=3.5入口调用预训...

2019-01-03 23:52:37 21698 21

原创 谷歌机器对话Self-Play框架M2M-Building a Conversational Agent Overnight with Dialogue Self-Play

Building a Conversational Agent Overnight with Dialogue Self-PlayGoogle提出了 Machines Talking To Machines(M2M,机器对话机器)的框架,这是一个功能导向的流程,用于训练对话智能体。其主要目标是通过自动化任务无关的步骤以减少建立对话数据集所需的代价,从而对话开发者只需要提供对话的任务特定的层面。...

2018-11-13 22:27:01 794

原创 对话系统

本文是个人笔记,来源于资料标注与reference中。对话系统涉及的五种主要技术。语音识别(ASR)口语理解(SLU)对话管理(DM)自然语言生成(NLG)文本生成语音(TTS)口语理解-SLU输入经过ASR输出的语句,将其转换为语义表示,如frame形式,包含intent和多个槽位,如订票系统中的:speechActType,departureCity,destination...

2018-11-13 22:23:59 2109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除