2021年03月_及时行樂_

原创【论文泛读37】基于序列和树结构的端到端关系抽取

贴一下汇总贴：论文阅读记录论文链接：《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》一、摘要我们提出了一种新的端到端神经模型来提取实体和它们之间的关系。我们基于递归神经网络的模型通过在双向序列LSTM神经网络上堆叠双向树结构LSTM神经网络来捕获单词序列和依赖树子结构信息。这允许我们的模型在单个模型中用共享参数联合表示实体和关系。我们进一步鼓励在培训期间对实体进行检测，并通过实体预处理和计划抽样在

2021-03-29 16:50:32 363

原创【论文泛读36】带注意的RNN语义关系分类

贴一下汇总贴：论文阅读记录论文链接：《Semantic Relation Classification via Hierarchical Recurrent Neural Network with Attention》一、摘要语义关系分类仍然是自然语言处理中的一个挑战。在这篇文章中，我们介绍了一个层次递归神经网络，它能够从原始句子中提取信息，用于关系分类。我们的模型有几个显著的特点：(1)每个句子根据两个注释名词被分成三个上下文子序列，这允许模型独立地编码每个上下文子序列，以便选择性地聚焦于重要的上下

2021-03-28 14:43:39 258

原创【论文泛读35】基于注意力的双向长短期记忆网络关系分类

贴一下汇总贴：论文阅读记录论文链接：《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》一、摘要关系分类是自然语言处理领域中一项重要的语义处理任务。最先进的系统仍然依赖词汇资源，如WordNet或NLP系统，如依赖解析器和命名实体识别器(NER)来获得高级功能。另一个挑战是重要信息可以出现在句子的任何位置。为了解决这些问题，我们提出了基于注意的双向长短期记忆网络来获取句子中

2021-03-27 12:27:50 576

原创【论文泛读34】用于关系分类的双向长短期记忆网络

贴一下汇总贴：论文阅读记录论文链接：《Bidirectional Long Short-Term Memory Networks for Relation Classification》一、摘要关系分类是一种重要的语义处理，近年来受到了极大的关注。主要的挑战是重要的信息可以出现在句子的任何位置。因此，我们提出双向长短期记忆网络(BLSTM)来用关于所有单词的完整、连续的信息来建模句子。与此同时，我们还使用从词汇资源(如WordNet)或自然语言处理系统(如依赖解析器和命名实体识别器(NER))中获得的

2021-03-26 14:50:08 802

原创【论文泛读33】基于RNN的关系分类

贴一下汇总贴：论文阅读记录论文链接：《Relation Classification via Recurrent Neural Network》一、摘要深度学习在句子级关系分类方面取得了很大的成功。例如，卷积神经网络(CNN)提供了竞争性能，而不像传统的基于模式的方法那样在特征工程上付出太多努力。因此，基于CNN结构已经产生了许多作品。然而，基于CNN的方法没有很好地解决的一个关键问题是缺乏学习时间特征的能力，特别是名词对之间的长距离依赖性。本文提出了一个基于递归神经网络(RNN)的简单框架，并与基于

2021-03-24 18:54:10 421

原创【论文泛读32】BERT：用于语言理解的深度双向转换器的预培训

贴一下汇总贴：论文阅读记录论文链接：《BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding》一、摘要我们引入了一种新的语言表示模型BERT，它代表来自变压器的双向编码器表示。不同于最近的语言表示模型(彼得斯等人，2018a拉德福德等人，2018)，BERT被设计成通过在所有层中联合调节左和右上下文来预处理来自未标记文本的深层双向表示。因此，只需一个额外的输出层，就可以对预先训练好的BERT模型进行

2021-03-24 18:05:40 281 2

原创【论文泛读31】基于注意力的语义关系抽取CNN

贴一下汇总贴：论文阅读记录论文链接：《Attention-Based Convolutional Neural Network for Semantic Relation Extraction》一、摘要目前，神经网络在关系分类中发挥着重要的作用。在本文中，我们提出了一种新的基于注意力的卷积神经网络结构来完成这一任务。我们的模型充分利用了单词嵌入、词性标注嵌入和位置嵌入信息。词级注意机制能够更好地确定句子的哪个部分相对于两个感兴趣的实体最有影响。这种体系结构能够从特定于任务的标记数据中学习一些重要的特性

2021-03-23 13:19:33 812

原创【论文泛读30】基于多层次注意CNN的关系分类

贴一下汇总贴：论文阅读记录论文链接：《Relation Classification via Multi-Level Attention CNNs》一、摘要在众多试图从文本中挖掘结构化事实的信息抽取系统中，关系分类是一个至关重要的组成部分。我们提出了一种新的卷积神经网络结构来完成这项任务，它依靠两个层次的注意力来更好地识别异构环境中的模式。这种体系结构允许从特定于任务的标记数据中进行端到端的学习，而不需要外部知识，如显式的依赖结构。实验表明，我们的模型优于以前最先进的方法，包括那些依赖于更丰富形式的先

2021-03-22 16:58:03 330

原创【论文泛读29】关系抽取：卷积神经网络的视角

贴一下汇总贴：论文阅读记录论文链接：《Relation Extraction：Perspective from Convolutional Neural Networks》一、摘要到目前为止，关系抽取系统已经广泛使用了由语言分析模块生成的特征。这些特征中的错误导致关系检测和分类的错误。在这项工作中，我们通过引入用于关系提取的卷积神经网络，从句子中自动学习特征，并最小化对外部工具包和资源的依赖，从而摆脱了这些具有复杂特征工程的传统方法。我们的模型利用过滤器的多窗口大小和预先训练的单词嵌入作为非静态架构上

2021-03-21 15:24:18 414

原创【论文泛读28】用卷积神经网络排序对关系进行分类

贴一下汇总贴：论文阅读记录论文链接：《Classifying Relations by Ranking with Convolutional Neural Networks》一、摘要关系分类是一项重要的语义处理任务，目前的系统仍然依赖于昂贵的手工特征。在这项工作中，我们使用一个卷积神经网络来处理关系分类任务，该网络通过排序来执行分类。我们提出了一个新的成对排序损失函数，使得减少人工类的影响变得容易。我们使用SemEval-2010 Task 8数据集进行实验，该数据集旨在对两个名词性句子之间的关系进行

2021-03-20 19:50:56 511 1

原创【论文泛读27】基于卷积深层神经网络的关系分类

贴一下汇总贴：论文阅读记录论文链接：《Relation Classification via Convolutional Deep Neural Network》一、摘要用于关系分类的最新方法主要基于统计机器学习，它们的性能很大程度上取决于提取特征的质量。所提取的特征通常来自于预先存在的自然语言处理系统的输出，这导致了现有工具中错误的传播，并阻碍了这些系统的性能。在本文中，我们利用一个卷积深层神经网络(DNN)来提取词汇和句子层面的特征。我们的方法将所有单词标记作为输入，无需复杂的预处理。首先，通过查

2021-03-17 20:48:55 344

原创机器学习-白板推导系列笔记（三十六）--词向量

此文章主要是结合哔站shuhuai008大佬的白板推导视频：词向量_73min全部笔记的汇总贴：机器学习-白板推导系列笔记才看到大佬更新了新视频，赶紧第一时间学习并做记录。（这个看完就二刷，并对所有笔记进行完善！！！）一、背景介绍...

2021-03-17 15:22:46 907 3

原创【论文泛读26】DocBERT：文件分类的最佳实践

贴一下汇总贴：论文阅读记录论文链接：《DocBERT: BERT for Document Classification》一、摘要据我们所知，我们首次将BERT应用于文档分类。这项任务的一些特点可能会使人认为BERT不是最合适的模型:句法结构对内容类别来说不太重要，文档通常比典型的BERT输入长，文档通常有多个标签。然而，我们表明，使用BERT的简单分类模型能够在四个流行的数据集上达到最先进的水平。为了解决与BERT推理相关的计算开销，我们从BERTlargeto提取知识到小型双向LSTMs，使用30

2021-03-17 14:24:38 678

原创【论文泛读25】用于极端多标签文本分类的驯服预处理变压器

贴一下汇总贴：论文阅读记录论文链接：《Taming Pretrained Transformers for Extreme Multi-label Text Classification》一、摘要我们考虑极端的多标签文本分类(XMC)问题:给定一个输入文本，从一个大的标签集合中返回最相关的标签。例如，输入文本可以是Amazon.com的产品描述，标签可以是产品类别。XMC是NLP社区中一个重要而又具有挑战性的问题。最近，深度预训练的变压器模型在许多自然语言处理任务上取得了最先进的性能，包括句子分类，尽

2021-03-16 17:47:13 806

原创【论文泛读24】如何为文本分类微调BERT？

贴一下汇总贴：论文阅读记录论文链接：《How to Fine-Tune BERT for Text Classification?》一、摘要语言模型预训练已被证明在学习通用语言表示方面是有用的。作为一种最先进的语言模型预训练模型，BERT在许多语言理解任务中取得了惊人的结果。本文通过详尽的实验研究了文本分类任务中BERT的不同微调方法，为BERT微调提供了一个通用的解决方案。最后，提出的解决方案在八个广泛研究的文本分类数据集上获得了新的最先进的结果。二、结论BERT的顶层对文本分类更有用；通过

2021-03-14 15:01:47 409

原创中科大-凸优化笔记（lec52）-常用技巧（分布式计算）

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化例：min⁡12x12+12x22s.t. x1=1 x∗=(1,0)T ⇒L(x,v)=12x12+12x22+v(x1−1) x1=1,x1+v=0,x2=0⇒x1∗=1,v∗=−1,x2∗=0 ⇒Lc(x,v)=12x12+12x22+v(x1−1)+c2(x1−1)2arg min⁡Lc(x,v∗)=12x12+12x22−(x1−1)+c2(x1−1)2 性质1：∂Lc(x,v∗)∂x1=x1−1+c(x1−1)=0 ⇔x

2021-03-12 13:39:20 1009

原创中科大-凸优化笔记（lec51）-增广拉格朗日法

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化一、线性等式约束的凸优化问题αk=arg min⁡α≥0f(xk+αdk)xk+1=xk+αkdk\alpha^k = \argmin_{\alpha\ge0}f(x^k+\alpha d^k)\\x^{k+1}=x^k+\alpha^kd^kαk=α≥0argminf(xk+αdk)xk+1=xk+αkdk二、拉格朗日法xk+1=xk−αk(∇f(xk)+ATvk)vk+1=vk+αk(Axk−b)x^{k+1}=x^k-\alpha^k(\n

2021-03-12 13:29:46 1589

原创中科大-凸优化笔记（lec50）-拉格朗日法（KKT条件）

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化一、拉格朗日法 Lagrangian Methodxk+1=xk−αk(∇f(xk)+ATvk)xk+1=vk+αk(Axk−b) x^{k+1}=x^k-\alpha^k(\nabla f(x^k)+A^Tv^k)\\x^{k+1}=v^k+\alpha^k(Ax^k-b)\;\\\;xk+1=xk−αk(∇f(xk)+ATvk)xk+1=vk+αk(Axk−b)L(x,v)=f(x)+vT(Ax−b)(x∗,v∗)arg max⁡vmin⁡x

2021-03-09 16:43:23 1146

原创中科大-凸优化笔记（lec49）-无约束和有约束优化问题

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化一、无约束优化问题及算法min⁡f(x)gradient descent dk=−∇f(xk)steepest descent dk=arg min⁡∣∣v∣∣=1{∇fT(xk)v}coordinate descentsubgradient descent dk=−∂f(xk)∂xNewton′s Method dk=arg min⁡v{∇fT(x)v+12vT∇2f(x)v}=−(∇2f(xk))−1∇f(xk)Quasi−Newt

2021-03-09 16:28:05 1137

原创【论文泛读23】BERT有意义吗？基于语境化嵌入的可解释词义消歧

贴一下汇总贴：论文阅读记录论文链接：《Does BERT Make Any Sense? Interpretable Word Sense Disambiguation with Contextualized Embeddings》一、摘要ElMo(Peaters等人，2018)、Flair NLP (Akbik等人，2018)或BERT (Devlin等人，2019)提供的上下文化单词嵌入(CWE)是NLP中最近的一项重大创新。cwe根据单词各自的上下文提供单词的语义向量表示。它们相对于静态单词嵌入

2021-03-07 22:37:49 574

原创中科大-凸优化笔记（lec48）-拟牛顿法

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化一、牛顿法（Newton’s method）牛顿法算法收敛性分析 ∃η>0\;\;\exist \eta>0∃η>0若∣∣∇f(x)∣∣2>η||\nabla f(x)||_2>\eta∣∣∇f(x)∣∣2>η：damped Newton phase若∣∣∇f(x)∣∣2<η||\nabla f(x)||_2<\eta∣∣∇f(x)∣∣2<η：quadratically conv

2021-03-07 16:42:59 815

原创中科大-凸优化笔记（lec47）-最速下降法

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化一、梯度下降法dk+1=−∇f(xk)f(xk+1)−P∗f(xk)−P∗≤1−mM≤1−min⁡{2mγαmax,2mγβM}K∼log⁡(f(xk)−P∗) 线性收敛d^{k+1}=-\nabla f(x^k)\\\frac{f(x^{k+1})-P^*}{f(x^k)-P^*}\le1-\frac mM\le1-\min\{2m\gamma\alpha_{max},\frac{2m\gamma\beta}M\}\\ K\sim \

2021-03-07 16:33:58 955

原创中科大-凸优化笔记（lec46）-算法的收敛性

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化一、分析算法的收敛性∀x∈dom f,MI⪰∇2f(x)⪰mI\forall x\in dom\;f,MI\succeq\nabla^2f(x)\succeq mI∀x∈domf,MI⪰∇2f(x)⪰mI1)exact line search2)Inexact line search(Amijo Rule)例：f(x)=12XTPX P∈S+nf(x)=\frac12X^TPX\;\;P\in S_+^nf(x)=21XTPXP

2021-03-06 19:24:22 1486

原创中科大-凸优化笔记（lec45）-强凸性等价不等式

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化上节课两道题一、函数性质的分析f(x)f(x)f(x)二、梯度下降法Gradient Decentdk=−∇f(xk)d^k=-\nabla f(x^k)dk=−∇f(xk)

2021-03-06 19:19:42 1174 1

原创使用Python建立RNN实现二进制加法

只有一百行左右代码，应该还是比较好理解的。我会在说的时候贴上代码，也会在最后贴上整个代码，安装numpy库就能够跑。二进制加法这个没啥好说的，就是逢二进一，不知道的就看看计算机组成原理的相关内容吧。RNN主要学两件事，一个是前一位的进位，一个是当前位的加法操作。只告诉当前阶段和前一阶段的计算结果，让网络自己学习加法和进位操作。具体代码既然是神经网络，肯定就非线性的，首先是sigmoid函数，这个要是不清楚，就看看相关博客了解一下。反向传播的时候需要sigmoid函数的导数值，所以把两个函数就直

2021-03-06 16:28:38 447 1

原创【论文泛读22】基于方面的情感分析的对抗性训练

贴一下汇总贴：论文阅读记录论文链接：《Adversarial Training for Aspect-Based Sentiment Analysis with BERT》一、摘要基于方面的情感分析(ABSA)研究情感的提取及其目标。为了帮助神经网络更好地泛化，为这项任务收集标记数据既费力又耗时。作为一种选择，可以通过在嵌入空间中执行的对抗过程来人工产生与真实世界示例相似的数据。虽然这些例子不是真实的句子，但它们已经被证明是一种正则化方法，可以使神经网络更加鲁棒。在这项工作中，我们使用对抗性训练来微调

2021-03-06 01:28:00 889 1

原创中科大-凸优化笔记（lec44）-一些上界下界及梯度下降

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化一、强凸性假设f(x)f(x)f(x)二阶可微且有强凸性∃m>0,∀x∈dom f,∇2f(x)⪰mI\exist m>0,\forall x\in dom\;f,\nabla^2f(x)\succeq mI∃m>0,∀x∈domf,∇2f(x)⪰mI二、梯度下降法dk=−∇f(xk)d^k=-\nabla f(x^k)dk=−∇f(xk)具体的梯度下降方法及例子，可以看这篇博文：梯度下降法...

2021-03-05 15:18:38 1215 1

原创【论文泛读21】掩模与填充:将掩模语言模型应用于情感传递

贴一下汇总贴：论文阅读记录论文链接：《“Mask and Infill” : Applying Masked Language Model to Sentiment Transfer》一、摘要摘要非平行语篇的情感转移是指对句子的情感属性(如积极的或消极的)进行修饰，同时保留其与属性无关的内容。由于基于rnn的编码器-解码器结构在捕捉单词之间深度和长期依赖关系方面的能力有限，以往的著作很难从无到有地生成令人满意的句子。当人类对句子的情感属性进行转换时，一种简单而有效的方法是仅用目标情感表达替换句子中原有

2021-03-05 15:12:35 461 1

原创中科大-凸优化笔记（lec43）-函数的强凸性

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化测验一、函数的强凸性无约束优化问题min⁡f(x)\min f(x)minf(x)假设f(x)f(x)f(x)二阶可微且有强凸性∃m>0,∀x∈dom f,∇2f(x)⪰mI\exist m>0,\forall x\in dom\;f,\nabla^2f(x)\succeq mI∃m>0,∀x∈domf,∇2f(x)⪰mI...

2021-03-05 14:59:41 2843 1

原创中科大-凸优化笔记（lec42）-log-barrier法

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化讨论几种典型的算法无约束优化/有约束优化所有优化算法都是迭代算法

2021-03-02 14:53:12 1825

原创中科大-凸优化笔记（lec41）-可微凸优化问题的罚函数形式

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化例：⇒L(x,v)=f0(x)+vT(Ax−b)⇒g(v)=inf⁡x{f0(x)+vT(Ax−b)} v=α(Ax~−b)g(α(Ax~−b))=inf⁡x{f0(x)+α(Ax~−b)T(Ax~−b)}=f0(x~)+α∣∣Ax~−b∣∣22 f0(x∗)=P∗=d∗≥g(α(Ax~−b))=f0(x~)+α∣∣Ax~−b∣∣22≥f0(x~)当α=0时，arg max⁡f0(x)当α→+∞时，f(x∗)=f(x~)\Rightar

2021-03-02 14:48:44 1132 4

原创【论文泛读20】基于迁移学习的日语情感分析研究

贴一下汇总贴：论文阅读记录论文链接：《An Investigation of Transfer Learning-Based Sentiment Analysis in Japanese》一、摘要文本分类方法通常需要特定任务的模型体系结构和巨大的标记数据集。最近，由于基于文本的迁移学习技术的兴起，我们可以在无监督的情况下预先训练语言模型，并利用它们有效地执行下游任务。在这项工作中，我们关注日语，并展示了迁移学习技术在文本分类中的潜在应用。具体来说，我们对乐天产品评论和雅虎电影评论数据集进行了二分类和多

2021-03-02 10:18:43 825

原创中科大-凸优化笔记（lec40）-松弛对偶

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化例：Boolen LP问题例：Boolen LP等价问题{min⁡cTxs.t. Ax≤b xi(xi−1)=0,i=1,⋯ ,n ⇒L(x,λ,v)=cTx+λT(Ax−b)+∑i=1nvixi2−∑i=1nvixi=∑i=1nvixi2+(c+AλT−v)Tx−λTb ⇒g(λ,v)=inf⁡xL(x,λ,v)={−λTb−14∑i=1n(ci+aiTλ−vi)2vi,v≥0−∞,

2021-03-01 11:16:40 1046

原创中科大-凸优化笔记（lec39）-敏感性分析

全部笔记的汇总贴（视频也有传送门）：中科大-凸优化一、敏感性分析性质1：若原问题为凸问题，则P∗(u,w)P^*(u,w)P∗(u,w)为(u,w)(u,w)(u,w)的凸函数。证明：P∗(u,w)=inf⁡x{f0(x)∣fi(x)≤ui,i=1,⋯ ,m,hi(x)=wi,i=1,⋯ ,P(D)}=inf⁡xg(x,u,w)g(x,u,w)=Δf0(x),dom g=dom f0∩D(凸集fi(x)−ui≤0 hi(x)−wi=0)g(x,u,w)为(x,u,w)的凸函数f(x,y)对x是

2021-03-01 11:02:01 1847 4

scu-liu的博客