学习笔记
jiaojiaolou
这个作者很懒,什么都没留下…
展开
-
NLP学习路径(一):NLP基础知识
1、基本术语:(1)分词分词常用手段:基于字典的最长串匹配,但歧义分词很难。比如:美国/会/通过法案。美/国会/通过法案。(2)词性标注词性:动词、名词、形容词等目的:表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。比如:我/r爱/v中国/ns。其中,ns代表名词,v是动词,ns,v都是标注。(3)命名实体识别指从文本中识别具有特定类别的实体(通常是名词),例如人名、地...原创 2019-03-16 21:26:29 · 2355 阅读 · 0 评论 -
李宏毅:spatial transformer (空间变换)
(1)它不仅可以放在CNN之前进行transformer,transform input image,比如:把image放大...;同时它也可以放在CNN里面去transform feature map。(2)将weight设置成不同,就可以对image进行变换,下面这个例子是对 image进行平移操作 。旋转:(3)下面是梯度不会下降:当参数做一些小小的改动的...原创 2019-05-21 09:32:43 · 4011 阅读 · 2 评论 -
李宏毅:Activation Function
1、relu(1)relu(2)relu的变形(3)selu下图中的iid表示独立同分布,输入a1...ak的mean是0,variance是 1,Selu希望得到输出的mean也是0,variance也是1。我们假设w1...wk的mean也等于0。我们假设weight的variance也是1。SNN就是用selu(3)swi...原创 2019-05-24 21:06:46 · 406 阅读 · 0 评论 -
李宏毅:capsule(胶囊网络)
1、capsule与neural的区别neural的output是value,capsule的output是vector。capsule的input可以是其它capsule的output。neural是侦测某一个pattern,但是capsule是侦测某一类pattern,它输出的vector的每一个dimension代表pattern的特性,vector的长度代表了这某一类的patt...原创 2019-05-24 22:20:36 · 3702 阅读 · 2 评论 -
李宏毅:Tuning Hyperparameters(超参数)
1、grid search vs random search有时候random search的方法还是不错的,因为top k的结果已经相差不大。所以没有必要扫过所有的参数组合,只要取前k名的其中一个结果就好了。有sample到K的几率:2、model-based hyperparameter optimization不一定好用3、reinforcement learni...原创 2019-05-25 10:53:39 · 1107 阅读 · 0 评论 -
李宏毅:Highway Network & Grid LSTM
1、Feedforward vs Recurrent2、Highway NetworkGRU是有reset gate的,而highway network没有reset gate。reset gate是为了忘记之前的input。update gate是input gate和forget gate的综合。input gate和forget gate是联动的4、Grid ...原创 2019-05-21 19:24:12 · 1070 阅读 · 1 评论 -
李宏毅:Recursive Network(递归神经网络)
1、Recursive Structure2、Recursive Model根据syntactic structure(句法结构),输入和输出vector是一致的。中间的f是一个复杂的neural network,而不是两个单词vector的简单相加。sentiment reverse:sentiment emphasize:如何设计f这个neura...原创 2019-05-22 15:18:18 · 1133 阅读 · 0 评论 -
李宏毅:conditional generation by RNN & attention
1、Generation生成句子或者文章。在生成好的RNN模型里,我们输入开头,模型可以输出一系列的输出,如下图,我们根据输出得到了“床”,然后把“床”作为下一个时间点的输入,得到“前”,依次类推。这是测试时的一种做法,并不是唯一做法。在训练RNN模型的时候,并不是拿上一时刻的输出当作下一时刻的输入,而是拿句子真正的序列当作输入的。2、condition generation我...原创 2019-05-23 17:34:32 · 1106 阅读 · 0 评论 -
李宏毅:Pointer Network
1、2、下图所示:input 4个data point的坐标,得到一个红色的vector,再把vector放到decoder中去,得到distribution,再做sample(比如做argmax,决定要输出token 1...),最终看看work不work,结果是不work。比如:训练的时候有50 个点,编号1-50,但是测试的时候有100个点,但是它只能选择 1-50编号的点,后面的点...原创 2019-05-23 18:13:41 · 1561 阅读 · 0 评论 -
李宏毅:Batch Normalization
1、feature scaling(1)经过feature scaling,会让你的training容易的多。(2)对每一维的i计算均值和标准差,利用公式得到scaling后的feature,这样会让你的training收敛地更快。2、对每一个layer前的input进行feature scaling,但此时会出现一个问题:第一个layer前的feature 是不会变的,但是其...原创 2019-05-23 22:29:27 · 427 阅读 · 0 评论 -
李宏毅:RL and GAN for sentence generation and chat-bot
1、review1)chat-bot2)encoder把之前的information另做encoder,目前的这句话单独做encoder,再把两者合并,放入generator。3)generator4)training generator训练的时候input的是reference。condition from encoder不是decoder2、RL...原创 2019-06-05 19:57:18 · 698 阅读 · 0 评论 -
李宏毅:Gated RNN and Sequence generation
1、RNN with gated machanism(1)RNN(2)deep RNN(3)Bidirectional RNN(4)Naive RNN(5)LSTM因为LSTM中的input c变化是很慢的,所以它能够记得很久之前的内容,不会有太大的变化。h(t-1)和c(t-1)是上一个LSTM的output。可以把c(t-1)也放进去。...原创 2019-06-12 20:59:30 · 439 阅读 · 0 评论 -
李宏毅:generative adversarial network(GAN)
1、auto-encoder2、VAE(Variational Auto encoder)3、learn discriminator & generator(1) how to learn GAN discriminatordiscriminator(辨别器)就是一个binary classifier,辨别一个image是real的还是fake的。generat...原创 2019-06-01 15:27:19 · 746 阅读 · 0 评论 -
李宏毅:evaluation of generative model
1、likelihood无法获得likelihood解决办法:可以先用generator产生一把sample;接下来再用这把sample,用另外一个比较简单的distribution去approximate你的generator。2、likelihood vs quality用generator产生出来的image,它的quality和likelihood不见得是有一定...原创 2019-06-07 16:57:03 · 332 阅读 · 0 评论 -
李宏毅:Ensemble of GAN and Energy-based GAN
1、ensemble of GAN(1):同时train 一大堆GAN,然后就有一大堆generator,之后在generate image的时候,先随机挑选一个generator,再让那个generator sample image。那这样所有的generator合起来就会产生比较多样性的结果。:因为我们发现在每一个training的iteration,generator的outpu...原创 2019-06-09 13:58:15 · 425 阅读 · 0 评论 -
李宏毅:deep learning for language modeling
1、language modeling2、n-gram3、neural network based language model4、RNN-based LM与NN不一样的是:NN是只看当前的input来得出output,RNN是根据之前所有的input来看当前的output。eg:RNN中,要得到“知道”,它就要知道之前的所有的词汇来决定当前的output。...原创 2019-05-20 21:49:17 · 558 阅读 · 0 评论 -
Glove词向量
1、共现概率Glove使用了词与词之间的共现(co-occurrence)信息。假设元素Xij为词j出现在词i的环境(context)的次数。这里的”环境”有多种的定义。比如,在一段文本序列中,如果词j出现在词i左边或者右边不超过10个词的距离,我们认为词j出现在词i的环境一次。那么词j出现在词i的环境的概率,这一概率也叫做词i和词j的共现概率。如下为词j出现在词i环境的共现概率。其中...原创 2019-05-15 10:04:16 · 2911 阅读 · 0 评论 -
机器学习中样本比例不平衡的处理方法
1、样本不平衡往往会导致模型对样本数较多的分类造成过拟合,即总是将样本分到了样本数较多的分类中;除此之外,一个典型的问题就是 Accuracy Paradox,这个问题指的是模型的对样本预测的准确率很高,但是模型的泛化能力差。2、针对样本的不平衡问题,有以下几种常见的解决思路①搜集更多的数据 搜集更多的数据,从而让正负样本的比例平衡,这种方法往往是最被忽视的方法,然而实际上...原创 2019-03-29 14:05:15 · 1090 阅读 · 0 评论 -
NLP学习路径(四):NLP词性标注与命名实体识别
1、词性标注(1)词性标注简介词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注。但在中文中,一个词的词性很多时候都是不固定的。从整体上看大多数词语,尤其是实词,一般只有1-2个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。目前较为主流的方法是同分词方法一样,将句子的词性标注作为一个序列标注问题来解决,即可以...原创 2019-03-26 09:13:35 · 3172 阅读 · 0 评论 -
NLP学习路径(六):NLP句法分析
1、句法分析(1)主要任务:识别出句子所包含的的句法成分以及这些成分之间的关系,一般以句法树来表示句法分析的结果。(2)难点:歧义;搜索空间(3)句法分析种类:①完全句法分析:以获取整个句子的句法结构为目的②局部句法分析:只关注局部的一些成分,例如依存句法分析(4)句法分析方法:基于规则(存在语法规则覆盖有限、系统可迁移差等缺陷);基于统计(一套面向候选树的评价方法,其会给...原创 2019-03-30 09:37:12 · 2268 阅读 · 0 评论 -
NLP学习路径(二):NLP前期技术要求
1、正则表达式在NLP中的基本应用原创 2019-03-16 22:23:40 · 1095 阅读 · 0 评论 -
Jieba:高频词提取
1、高频词定义高频词是指文档中出现频率较高且非无用的词语,其一定程度上代表了文档的焦点所在。针对单篇文档可以作为一种关键词来看。对于如新闻这样的多篇文档,可以将其作为热词,发现舆论热点。高频词提取的干扰项:1)标点符号2)停用词:类似“的”,“是”,“了”等无意义的词。...原创 2019-03-23 09:31:52 · 4984 阅读 · 0 评论 -
NLP学习路径(三):NLP中文分词技术
1、中文分词简介难点:分词歧义方法:1)规则分词:人工建立词库,按一定方式匹配切分。缺点:对新词很难进行处理。2)统计分词:利用机器学习技术。缺点:过于依赖语料的质量。3)混合分词:上述两种方法的结合。(用得较多)2、规则分词主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。主要方法有:正向最大匹配法;逆向最大匹配法;双向最大匹...原创 2019-03-23 09:35:59 · 937 阅读 · 0 评论 -
NLP学习路径(七):NLP文本向量化
1、文本向量化概述(1)含义 文本向量化就是将文本表示成一系列能够表达文本语义的向量。词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分研究都是通过词向量化实现的。但也有一部分将文章或者句子作为文本处理的基本单元,于是产生了doc2vec和str2vec技术。(2)方法word2vec(词语),doc2vec(文章),str2vec(句子)2、向量化算法...原创 2019-04-10 19:37:17 · 3298 阅读 · 0 评论 -
关于集成学习的学习笔记
1、常见的集成学习框架bagging,boosting、stacking(1)bagging从训练集进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果。(2)boosting训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。(...原创 2019-03-28 13:47:54 · 371 阅读 · 0 评论 -
NLP学习路径(五):NLP关键词提取算法
1、关键词提取技术概述关键词提取算法主要分为:有监督和无监督。(1)有监督:通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后通过判断每个文档与词表的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点:能够获取到较高的精度缺点:需要大量的标注数据,需要人工维护(2)无监督:不需要人工生成维护的词表,也不需要人工标准语料辅助进行训练2、TF/IDF算法(无监督)TF-ID...原创 2019-04-08 21:24:52 · 2173 阅读 · 0 评论 -
NLP中文词向量训练:word2vec(Negative Sampling)
一.基于Hierarchical Softmax的word2vec模型的缺点Hierarchical Softmax ,使用霍夫曼树结构代替了传统的神经网络,可以提高模型训练的效率。但是如果基于Hierarchical Softmax的模型中所以词的位置是基于词频放置的霍夫曼树结构,词频越高的词在离根节点越近的叶子节点,词频越低的词在离根节点越远的叶子节点。也就是说当该模型在训练到生僻词时,需...原创 2019-04-29 11:11:24 · 1288 阅读 · 0 评论 -
词向量与Embedding
https://spaces.ac.cn/archives/4122转载 2019-04-20 14:52:33 · 497 阅读 · 0 评论 -
NLP学习路径(八):情感分析技术
1、情感分析的基本方法 对情感分析的研究到目前为止主要集中在两个方面:识别给定的文本实体是主观的还是客观的,以及识别主观的文本的极性。大多数情感分析研究都是使用机器学习的方法。 在情感分析领域,文本可以划分为积极和消极两类,或者积极、消极和中性的多类。分析方法主要分为: ①词法分析 ②基于机器学习的分析 ③混合分析(1)...原创 2019-04-30 14:01:32 · 2549 阅读 · 0 评论 -
李宏毅:deep learning(一)
1、fully connected2、recurrent neural network(同一个structure反复应用)双向RNNRNN中每个neural的计算3、LSTM三个门控机制的importance:4、GRUGRU是LSTM网络的一种效果很好的变体,GRU的运算量比LSTM小,它比LSTM少一个gate...原创 2019-05-18 22:24:28 · 451 阅读 · 0 评论 -
李宏毅: improved generative adversarial network(GAN)
1、generation从normal distribution(正态分布)中sample出一些点:generator需要update它的参数,使得它output产生的image能被discriminator误认为它是realistic。再update discriminator,使得之前被它判断出来是realistic的image重新判断为fake。不断更...原创 2019-06-05 14:46:26 · 445 阅读 · 0 评论