NLP
文章平均质量分 65
jshnaoko
半吊子
展开
-
Nesterov Momentum简介
Standard Gradient Update:沿着梯度的反方向改变参数(梯度指示增长的方向,我们通常希望最小化损失函数)。假设一个参数向量x和梯度dx,其更新公式为:# Vanilla updatex += - learning_rate * dxMomentum Update:这种更新方式从物理角度看待优化问题,在深度网络上往往能有更好的收敛率。具体而言,损失可以视为山丘地区的高度(因此有势能U=mgh,且U∝h),用随机数初始化参数视为给一个在某处的粒子0初始速度。那么优化过程可以视为粒原创 2021-04-07 11:51:20 · 987 阅读 · 0 评论 -
《Cost-Sensitive BERT for Generalisable Sentence Classification with Imbalanced Data》阅读笔记
https://arxiv.org/pdf/2003.11563.pdf1.常见NLP数据增强+BERT在失衡数据上的表现任务为2分类。正负样本比例为28% vs. 72%(这里以正/负指代文中的propaganda/non-propaganda)。BERT模型采用BERT_base,增加全连接层,用于对句子编码分类。常见NLP数据增强方法详见https://arxiv.org/pdf/1901.11196.pdf评估结果如下:用同一份数据集中75%训练,25%测试...原创 2021-03-30 17:50:09 · 265 阅读 · 0 评论 -
《Dice Loss for Data-imbalanced NLP Tasks》阅读笔记
https://arxiv.org/pdf/1911.02855.pdf1.几种loss函数:2.关于交叉熵loss交叉熵方法是accuracy-oriented的,每个样本的贡献相同。如果测试集上以f1 score作为主要评估,则更重视对正样本的考量。若在样本不均衡的情况下使用交叉熵训练会造成训练和测试间的性能差异。3.关于weighted cross entropy系数a在[0,1]内,它可以是inverse class frequence 或是一个可调的超参数。使用原创 2021-03-30 11:29:15 · 501 阅读 · 0 评论 -
Google Dialogflow中的基本概念
对话流复杂的对话框通常涉及多个对话主题。每个主题都需要多轮对话才能让代理获取最终用户的相关信息。对话流用于定义这些主题和关联的对话路径。每个代理都有一个名为默认的流。对于简单的代理,可能只需要这一个流。较复杂的代理可能需要更多的流,不同的开发团队成员可以负责构建和维护这些流。页面每个对话流可以定义多个页面,其中组合页面可以处理该流所针对的主题的完整对话。在任何给定时刻,只有一个页面是“活跃”的,与该页面关联的流被视为活跃流。每个流都有一个特殊的初始页面。当流最初处于活跃状态时,初始页原创 2021-03-03 19:39:10 · 1257 阅读 · 1 评论 -
RASA中的填槽
RASA1.x中的填槽处理填槽指在会话中从用户处收集完成任务所需的信息。如果需要连续收集多条信息,可以创建一个FormAction。FormAction中含有一个循环的逻辑来询问用户所需的槽值。配置Form在domain文件中定义:使用Form则需要在config文件中引入FormPolicy。FormPolicy是MemoizationPolicy的一个扩展,负责填槽。当FormAction被调用后,FormPolicy会继续预测后序应该采取的FormAction,直...原创 2021-02-24 21:01:11 · 2414 阅读 · 2 评论 -
简介RASA中的TED Policy
简单的会话中,可以直接根据意图映射动作。但实际情况中,会话中会发生闲聊或场景切换,需要参考历史来选择动作。在TEDPolicy中,Rasa提取特征,并通过特征来决定采取何种动作。特征包含用户消息中的意图、实体、当前的槽值和之前所采取的动作。所有特征向量拼接起来成为最终的feature_t,TEDPolicy对{feature_t, feature_t-1, … ,feature_t-n}和action_t之间的映射关系建模。这里用到一个单向的Transformer来处..原创 2021-02-23 16:24:02 · 1603 阅读 · 0 评论 -
RASA对话管理简介
简介RASA用policy来决定对话中每个步骤采取的action。有机器学习、基于规则两类policy可选。Policy的配置在cofig.yml文件中,可同时配置多个policy。配置后的每个policy会在回话中预测下一个机器人action,并且给出对应置信度,最终采用置信度最高的action。1.policy优先级Rasa为每种policy分配了优先级,如: RulePolicy优先级为6 MemoizationPolicy / Augment...原创 2021-02-05 16:46:08 · 2382 阅读 · 0 评论 -
《Natural language Inference Over Interaction Space》阅读笔记
1.主要贡献提出了一种新型的网络结构(Interactive Inference Network, IIN),能够从交互空间(interaction space)中抽取句子对的语义特征;基于注意力权重有助于理解文本的假设,提出一种词对词的注意力(交互张量),越密集的交互张量含有的语义信息越丰富;2.模型结构2.1 Interactive Inference Network如下图左侧所示,IIN由5个部分组成,每个部分都可以以多种方式灵活实现。(1)Embedding Lay.原创 2020-12-30 20:52:07 · 162 阅读 · 0 评论 -
《ABCNN-Attention-Based Convolutional Neural Network for Modeling Sentence Pairs》阅读笔记
1.主要贡献1.1 可用于多种需要对句子队建模的任务,如: answer selection 选取答案,QA匹配; paraphrase identification 复述鉴别,判断两个句子意思是否相同; textual entailment 文本蕴含,第一句是否意味着第二句;1.2 提出三种注意力机制: 它们将句子间的相互影响整合到CNN中,因此每个句子的表示都考虑到了它对应的句子。 这些相互依赖的句子对表示比独立的句子表示更强。2.BCNN...原创 2020-12-17 16:18:34 · 230 阅读 · 0 评论 -
《Hierarchical Attention Networks for Document Classification》阅读笔记
动机:通过将文档结构知识纳入模型结构,可以获得比之前方法更好的表征。在应答一个请求时,并不是文档中的所有部分都与之相关;为了确定那些相关的部分,需要对词之间的互动建模,而不是仅对它们的出现单独建模;贡献:提出一个新的神经网络结构(Hierarchical Attention Network)来捕捉文档结构中的两种基本特征:(1)对文档继承结构建模:先构建句子的表征再合并成文档的表征;(2)对同一个词/句子再不同上下文中的不同重要性建模:采用了词级和句子级上的两种注意力机制;注..原创 2020-12-16 20:00:17 · 186 阅读 · 0 评论