2018年07月_harry_128

转载 (论文笔记) Deep contextualized word representations

Deep contextualized word representations1. Introduction什么是一个好的词向量能够反映出语义和语法的复杂特征.能够准确的对不同上下文进行反应.deep contextualized 词向量的特点使用理念方面:在原先的词向量模型中, 每个词对应着一个向量, 但是这个模型是根据一个句子赋予每个词汇向量. 因此对于一个 n-tokens 的输入NLP任...

2018-07-24 14:54:53 5854 4

转载 SVM对偶问题的深入理解

<p><strong>1. 支持向量机的目的是什么？</strong></p> 对于用于分类的支持向量机来说，给定一个包含正例和反例（正样本点和负样本点）的样本集合，支持向量机的目的是寻找一个超平面来对样本进行分割，把样本中的正例和反例用超平面分开，但是...

2018-07-18 22:07:30 10737 4

转载 [NLP技术]关键词提取算法-TextRank

关键词提取算法-TextRank　　今天要介绍的TextRank是一种用来做关键词提取的算法，也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的，所以首先简要介绍下PageRank算法。1.PageRank算法　　PageRank设计之初是用于Google的网页排名的，以该公司创办人拉里·佩奇（Larry Page）之姓来命...

2018-07-12 16:29:38 862

转载 LSF-SCNN：一种基于CNN的短文本表达模型及相似度计算的全新优化模型

如果你对自然语言处理 (natural language processing, NLP) 和卷积神经网络（convolutional neural network, CNN）有一定的了解，可以直接看摘要和LSF-SCNN创新与技术实现部分。如果能启发灵感，应用于更多的现实场景中带来效果提升，那才是这篇文章闪光的时刻。如果你没有接触过NLP和CNN，也不在担心，可以从头到尾听我娓娓道来。有任何...

2018-07-12 11:30:12 3050 3

转载关于乱序（shuffle）与随机采样（sample）的一点探究

目录 Shuffle Sample Sample的各种实现回到random.samplerandom.sample有没有问题总结references  正文 　　最近一个月的时间，基本上都在加班加点的写业务，在写代码的时候，也遇到了一个有趣的问题，值得记录一下。　　简单来说，需求是从一个字典（python dict）中随机选出K个满足条件的key。代码如下（python2...

2018-07-12 10:36:07 4542 1

转载如何产生好的词向量？

如何产生好的词向量？词向量、词嵌入（word vector，word embedding）也称分布式表示（distributed representation），想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中，研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。在使用这些工具产生词向量时，不同的训练数据，参数，模型等都会对产生的词向量有所影响，那么...

2018-07-11 15:35:45 712

原创文本分类的tricks

趁机总结一下之前遇到过的一些小trick吧：数据预处理时vocab的选取（前N个高频词或者过滤掉出现次数小于3的词等等）词向量的选择，可以使用预训练好的词向量如谷歌、facebook开源出来的，当训练集比较大的时候也可以进行微调或者随机初始化与训练同时进行。训练集较小时就别微调了结合要使用的模型，这里可以把数据处理成char、word或者都用等有时将词性标注信息也加入训练数据会收到比较好的效果至于...

2018-07-10 16:43:43 818 1

原创机器学习中使用正则化来防止过拟合是什么原理？

从知乎整理而来1过拟合是一种现象。当我们提高在训练数据上的表现时，在测试数据上反而下降，这就被称为过拟合，或过配。过拟合发生的本质原因，是由于监督学习问题的不适定：在高中数学我们知道，从n个（线性无关）方程可以解n个变量，解n+1个变量就会解不出。在监督学习中，往往数据（对应了方程）远远少于模型空间（对应了变量）。因此过拟合现象的发生，可以分解成以下三点：有限的训练数据不能完全反映出一...

2018-07-05 15:06:49 2134

harry的博客