apk6909-CSDN博客

转载 [Attention Is All You Need]论文笔记

主流的序列到序列模型都是基于含有encoder和decoder的复杂的循环或者卷积网络。而性能最好的模型在encoder和decoder之间加了attentnion机制。本文提出一种新的网络结构，摒弃了循环和卷积网络，仅基于attention机制。 self-attention是一种attention机制，它是在单个序列中计算每个位置与其他不同位置关系从而计算序列。Transfo...

2019-07-28 22:50:00 250

转载 bert论文笔记

摘要BERT是“Bidirectional Encoder Representations from Transformers"的简称,代表来自Transformer的双向编码表示。不同于其他的语言模型，它是使用transformer联合所有层的左右上下文来预训练的深度双向表示。在这个表示的基础上，只需要一个额外的输出层，就可以根据特定的任务对预训练的bert进行微调，无需对特定的任...

2019-07-21 20:40:00 283

转载预训练中Word2vec,ELMO,GPT与BERT对比

预训练先在某个任务（训练集A或者B）进行预先训练，即先在这个任务（训练集A或者B）学习网络参数，然后存起来以备后用。当我们在面临第三个任务时，网络可以采取相同的结构，在较浅的几层，网络参数可以直接加载训练集A或者B训练好的参数，其他高层仍然随机初始化。底层参数有两种方式：frozen，即预训练的参数固定不变，fine-tuning，即根据现在的任务调整预训练的参数。优势：1、当前任...

2019-07-20 22:28:00 972

转载【NER】对命名实体识别(槽位填充)的一些认识

命名实体识别1. 问题定义广义的命名实体识别是指识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、日期、货币和百分比）命名实体。但实际应用中不只是识别上述所说的实体类，还包括其他自定义的实体，如角色、菜名等等。2. 解决方式命名实体识别其本质是一个序列标注问题，序列标注就是对给定文本中每一个字符打上标签。标签的格式可以分为BO，BIO和BIEO三种形...

2019-07-16 22:10:00 1573

转载【tensorflow】softmax_cross_entropy_with_logits与sparse_softmax_cross_entropy_with_logits

softmax_cross_entropy_with_logits与sparse_softmax_cross_entropy_with_logits都是对最后的预测结果进行softmax然后求交叉熵区别在于输入的label形式sparse_softmax_cross_entropy_with_logits的label是 [batch_size],softmax_cross_e...

2019-05-10 11:16:00 111

转载【机器学习】attention机制

参考：1、https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html转载于:https://www.cnblogs.com/zhaopAC/p/10797883.html

2019-04-30 20:09:00 119

转载【深度学习】RNN | GRU | LSTM

目录：1、RNN2、GRU3、LSTM一、RNN1、RNN结构图如下所示：其中：$a^{(t)} = \boldsymbol{W}h^{t-1} + \boldsymbol{W}_{e}x^{t} + \mathbf{b}$$h^{t} = f(a^{t})$, f 是激励函数，sigmoid或者tanh$\hat{y}^{t} = Uh^{...

2019-01-08 19:26:00 131

转载深度学习中优化【Normalization】

深度学习中的Normalization引言normalization中文意思是标准化，标准化就是对一组数据集合将其变成均值为0，方差为1的过程。在深度网络中主要有两种实体：神经元和相邻两层相连的权重边。根据规范化对象的不同，可以分为两类：一类是对L层网络的输出值进行Normalization的操作，再根据如何划分输出值数据集合，可以分为BatchNormalization、Lay...

2019-01-01 21:06:00 180

转载 Transformer【Attention is all you need】

前言Transfomer是一种encoder-decoder模型，在机器翻译领域主要就是通过encoder-decoder即seq2seq，将源语言(x1, x2 ... xn) 通过编码，再解码的方式映射成（y1, y2 ... ym), 之前的做法是用RNN进行encode-decoder,但是由于RNN在某一时间刻的输入是依赖于上一时间刻的输出，所以RNN不能并行处理，导致效率...

2018-12-31 14:48:00 108

转载 seq2seq

seq2seq:seq2seq就是将输入序列经过encoder-decoder变成目标序列。如图所示，输入序列是 [A, B, C, <EOS>]，输出序列是 [W, X, Y, Z, <EOS>]encoder-decoder: 主要过程就是用RNN对输入序列进行编码，然后再用RNN对上下文向量进行解码。实现方式：1、...

2018-12-30 21:21:00 114

转载矩阵向量求导术

在标量、向量和矩阵的求导过程中一定要知道最后结果的形状。这里总结几个常见的求导形式：前言：最基础最重要的，标量对向量求导和向量对标量求导，有两种方式，分子布局和分母布局，不同的方式都是对的，只是结果缺一个转置1、矩阵乘以列向量，对列向量求导，形如 $\boldsymbol{z} = \boldsymbol{Wx},$, 求$\frac{\partial \bolds...

2018-12-26 20:13:00 295

转载基础概念【softmax|normalizatoin|standardization】

目录一、softmax二、normalization三、standardization一、softmax为什么使用softmax,不用normalization?“max” because amplifies probability of largest“soft” because still assigns some probability to sm...

2018-12-20 15:32:00 461

转载【tensorflow】学习笔记

1、tensorflow中dynamic_rnn和rnn有什么区别？在tensorflow中没有找到rnn这个方法难道是废弃掉了？ rnn是静态图，比如有10个时间序列，那么它将全部展开，并且存储这十个图， dynamic_rnn是动态的，不会全部存储这些图 dynamic_rnn对于不同的时间步的batch可以是长度不同的数据，它会根据不...

2018-12-07 15:46:00 62

转载 dropout含义与原理

含义在训练过程中，对神经网络单元按照一定比例暂时将其丢弃。原理由于网络参数过多，训练数据少，或者训练次数过多，会产生过拟合的现象。dropout产生的一个重大原因就是为了避免过拟合。每一层的神经元按照不同的概率进行dropout，这样每次训练的网络都不一样，对每一个的batch就相当于训练了一个网络，dropout本质是一种模型融合的方式，当dropout设置为0.5时，模...

2018-12-01 15:37:00 148

转载最大似然估计与期望最大化（EM）算法

一、最大似然估计与最大后验概率1、概率与统计概率与统计是两个不同的概念。概率是指：模型参数已知，X未知，p(x1) ... p(xn) 都是对应的xi的概率统计是指：模型参数未知，X已知，根据观测的现象，求模型的参数2、似然函数与概率函数似然跟概率是同义词，所以似然也是表示概率，但这个概率有些不一样。...

2018-11-25 19:33:00 1386

转载【自然语言处理】分词方法汇总

一、关于分词原则：颗粒度越大越好：用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如：“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好切分结果中非词典词越少越好，单字字典词数越少越好，这里的“非词典词”就是不包含在词典中的单字，而“单字字典词”指的...

2018-11-19 15:42:00 615

转载【自然语言处理】语言模型

语言模型什么是语言模型语言模型就是估测一些词的序列的概率，即预测 p(w1, w2, w3 ... wn),一个应用就是句子的生成。2. 语言模型的种类Ngram ngram是一种统计的方法，它相当于固定了一个窗口，在这个窗口内的词是相关的，也就是第n个词和前n个词相关：P(s) = p(w1) p(w2|w1) p(w...

2018-11-01 11:45:00 213

转载条件随机场（CRF）

从宏观上讲，条件随机场就是给出一个序列 X = (x1, x2 ... xn) 得到另一个序列 Y = （y1 , y2 ... yn)。这两个序列有着一些独特的特性，满足马尔可夫随机场，我理解的满足马尔可夫随机就是当前的状态 yi 只与与它相连的状态(即yi-1, yi+1 )和对应的xi相关,也即符合下图对于一个输入序列X，可以得到很多的输出序列Y，其...

2018-10-26 20:36:00 123

转载模型评估【PR|ROC|AUC】

这里主要讲的是对分类模型的评估。1、准确率（Accuracy) 准确率的定义是：【分类正确的样本】 / 【总样本个数】，其中分类正确的样本是不分正负样本的优点：简单粗暴缺点：当正负样本分布不均衡的情况（假设一种极端情况，正样本1个，负样本99个），此时即使一个比较差的模型（只会将所用的样本预测成负样本），那它也有99%的准确率。总结一下就是当样...

2018-10-19 22:34:00 159

转载机器学习之正则化【L1 & L2】

前言L1、L2在机器学习方向有两种含义：一是L1范数、L2范数的损失函数，二是L1、L2正则化L1范数、L2范数损失函数L1范数损失函数：L2范数损失函数：L1、L2分别对应损失函数中的绝对值损失函数和平方损失函数区别：分析：robust: 与L2相比，L1受异常点影响比较小，因此稳健stable: 如果仅一个点，L1就是一个直线，L2是...

2018-10-01 10:38:00 149

转载机器学习中的损失函数

Classification:1、0-1 1）普通01损失函数针对于二分类问题，Y = {-1, 1}, f为预测结果，f应该是一个连续值，没有经过激励函数加工的数，如果 fy <= 0 为负该损失函数能够直观的刻画分类的错误率，但是由于其非凸、非光滑的特点，使得算法很难直接对函数进行优化。 2）Hinge损失函数对0-1损失...

2018-09-29 21:32:00 282

转载线性代数

一、矩阵篇1、Jacobian矩阵（雅可比） yi是关于x=(x1, x2...)的多元函数, yi对x的导数矩阵就是雅可比矩阵2、Hessian矩阵海森矩阵是函数的二阶偏导矩阵 3、正定、半正定矩阵4、奇异矩阵5、协方差矩阵协方差是用来衡量两个向量之间的相关性，记作cov（X， Y） = E[(Xi - EX)T(...

2018-09-29 15:30:00 133

转载降维【PCA & SVD】

PCA（principle component analysis）主成分分析理论依据最大方差理论最小平方误差理论一、最大方差理论（白面机器学习）对一个矩阵进行降维，我们希望降维之后的每一维数据能够有大的方差。为什么呢？因为每一维的方差越大，说明数据之间区分度高，想象一个极端的情况，降维之后的数据集所有维度都是一样的值，方差为0，那么数据就没什么意义了...

2018-09-20 11:24:00 98

转载 c语言中堆栈和静态空间

什么是堆空间、栈空间与静态空间堆空间：由程序员自己分配空间，如malloc需要指定分配多少个多大的字节空间，不用的时候需要自己释放栈空间：栈空间是由系统自动分配与释放，如int，char等大小都已固定，局部变量，函数的参数值等静态空间：全局变量、静态变量存放在静态空间中http://www.cnblogs.com/edisonchou/p/4669098.html...

2018-09-17 21:05:00 163

转载 hive笔记

castcast(number as string), 可以将整数转成字符串lpad rpadlpad(target, 10, '0') 表示在target字符串前面补0，构成一个长度为10的字符串concat_ws 列拼接concat_ws('@', 'zhaopei', 'mail.bnu.edu.cn')splitsplit('aa|bb',...

2018-09-12 20:58:00 83

转载进程与线程区别

http://yangcongchufang.com/%E9%AB%98%E7%BA%A7python%E7%BC%96%E7%A8%8B%E5%9F%BA%E7%A1%80/python-process-thread.html进程：线程：转载于:https://www.cnblogs.com/zhaopAC/p/9582980.html

2018-09-04 10:32:00 60

转载自信息、信息熵和相对熵

参考：https://blog.csdn.net/happyhorizion/article/details/77894051https://blog.csdn.net/acdreamers/article/details/446577451、自信息一件事发生的概率越大，其所带的信息量就越小，反之发生的概率越小，信息量就越大。[可以这么理解，对于一件发生概率极低的事情，...

2018-08-30 21:11:00 454

转载【机器学习】BP & softmax求导

目录一、BP原理及求导二、softmax及求导一、BP1、为什么沿梯度方向是上升最快方向根据泰勒公式对f(x)在x0处展开，得到f(x) ~ f(x0) + f'(x0)(x-x0), 故得到f(x) - f(x0) ~f'(x0)(x-x0), 所以从x0出发，变化最快，即使f(x)-f(x0)最大，也就f'(x0)(x-x0)，由于f'...

2018-08-26 21:50:00 195

转载 python中import问题

https://blog.csdn.net/aspenstars/article/details/69605318Python包含子目录中的模块方法比较简单，关键是能够在sys.path里面找到通向模块文件的路径。下面将具体介绍几种常用情况:（1）主程序与模块程序在同一目录下:如下面程序结构:`-- src |-- mod1.py `-- test1.py 若在程序...

2018-08-01 11:46:00 58

转载 [研一]反思是为了更好地进步

再交过两次作业之后研一的生活就已经彻底结束了，前阵子学校里到处都是拍毕业照的学生，想想再过两年那一群留恋母校的人就是我们了。时光荏苒，岁月如歌，去年此时，我还陶冶在清华里，做着一枚假的清华学子，期待着自己的研究生生活，今天我却要在这里细数这一年做的事情，感慨时光飞逝，痛恨自己无能无力。人的记忆真的是有限的，我努力去想上学期我在做什么，出现的只是一些零零碎碎的片段，所以记录一下自己的生...

2018-07-10 08:54:00 167

转载机器学习中优化算法【需整理】

1、怎么证明凸函数, 二阶Hessian矩阵半正定，函数为凸函数证明参考：https://math.stackexchange.com/questions/946156/proving-convexity-of-a-function-whose-hessian-is-positive-semidefinite-over-a-co以简单的线性回归为例，样本回归模...

2018-06-25 10:23:00 177

转载集成学习方法

总结的很棒！https://xijunlee.github.io/2017/06/03/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93/1、随机森林https://www.cnblogs.com/maybe2030/p/4585705.htmlhttps://blog.csdn.net/login_...

2018-06-23 14:17:00 62

转载 nlp知识

1、词集模型将每个词的出现与否作为一个特征，不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。2、词袋模型与词集相比，会考虑词频sklearn中 CountVectorizer与CountVectorizer: 会以每一个词作为特征，求出每一个词的词频http://www.cnblogs.com/pinard/p/6...

2018-06-19 15:09:00 77

转载 kaggle竞赛入门整理

1、Bike Sharing Demandkaggle:https://www.kaggle.com/c/bike-sharing-demand目的：根据日期、时间、天气、温度等特征，预测自行车的租借量处理：1、将日期（含年月日时分秒）提取出年，月，星期几，以及小时 2、season, weather都是类别标记的，利用哑变量编码算法模型选取：...

2018-06-19 10:59:00 319

转载 pandas知识点

1、选择对象 1.选择特定列和行的数据a['x'] 那么将会返回columns为x的列，注意这种方式一次只能返回一个列。a.x与a['x']意思一样。取行数据，通过切片[]来选择如：a[0:3] 则会返回前三行的数据。2.loc是通过标签来选择数据a.loc['one']则会默认表示选取行为'one'的行；a.loc[:,['a','b...

2018-06-19 10:00:00 106

转载 EM算法

1、EM算法2、混合高斯模型from __future__ import print_functionimport numpy as npdef generateData(k,mu,sigma,dataNum): ''' 产生混合高斯模型的数据 :param k: 比例系数 :param mu: 均值 :par...

2018-06-18 13:59:00 94

转载特征工程

在特征工程下面，还有许多的子问题，主要包括：Feature Selection（特征选择）、Feature Extraction（特征提取）和Feature construction（特征构造）特征选择Feature Selection1、过滤式选择单纯地一个一个特征地去比较与类别的关系。然后选择最大的k个特征著名的过滤式特征选择方法是Relief...

2018-06-12 17:03:00 60

转载【clustering】之K-means && K-medoids

k-meansk-medoids一、clustering 中的 loss function关于聚类的性能评价标准参考博客可以为外部指标和内部指标，其中外部指标是指聚类结果与某个 “参考模型" 进行表示，内部指标直接考察聚类结果不参考模型外部指标：1、Jaccard系数系属于相同类占总类数的比例，越大说明效果越好。内部指标：...

2018-06-12 13:49:00 277

转载 sklearn学习笔记

1、preprocessing转载于:https://www.cnblogs.com/zhaopAC/p/9170591.html

2018-06-11 23:30:00 123

转载数据可视化

一、matplotlib subplots() matplotlib.pyplot.subplots(nrows=1, ncols=1, sharex=False,sharey=False, squeeze=True, subplot_kw=None,gridspec_kw=None, **fig_kw)创建一个画像(figure)和一组子图(sub...

2018-05-10 19:51:00 85

空空如也

空空如也