自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(274)
  • 收藏
  • 关注

转载 [Attention Is All You Need]论文笔记

主流的序列到序列模型都是基于含有encoder和decoder的复杂的循环或者卷积网络。而性能最好的模型在encoder和decoder之间加了attentnion机制。本文提出一种新的网络结构,摒弃了循环和卷积网络,仅基于attention机制。 self-attention是一种attention机制,它是在单个序列中计算每个位置与其他不同位置关系从而计算序列。Transfo...

2019-07-28 22:50:00 250

转载 bert论文笔记

摘要BERT是“Bidirectional Encoder Representations from Transformers"的简称,代表来自Transformer的双向编码表示。不同于其他的语言模型,它是使用transformer联合所有层的左右上下文来预训练的深度双向表示。在这个表示的基础上,只需要一个额外的输出层,就可以根据特定的任务对预训练的bert进行微调,无需对特定的任...

2019-07-21 20:40:00 283

转载 预训练中Word2vec,ELMO,GPT与BERT对比

预训练先在某个任务(训练集A或者B)进行预先训练,即先在这个任务(训练集A或者B)学习网络参数,然后存起来以备后用。当我们在面临第三个任务时,网络可以采取相同的结构,在较浅的几层,网络参数可以直接加载训练集A或者B训练好的参数,其他高层仍然随机初始化。底层参数有两种方式:frozen,即预训练的参数固定不变,fine-tuning,即根据现在的任务调整预训练的参数。优势:1、当前任...

2019-07-20 22:28:00 972

转载 【NER】对命名实体识别(槽位填充)的一些认识

命名实体识别1. 问题定义广义的命名实体识别是指识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、日期、货币和百分比)命名实体。但实际应用中不只是识别上述所说的实体类,还包括其他自定义的实体,如角色、菜名等等。2. 解决方式命名实体识别其本质是一个序列标注问题,序列标注就是对给定文本中每一个字符打上标签。标签的格式可以分为BO,BIO和BIEO三种形...

2019-07-16 22:10:00 1573

转载 【tensorflow】softmax_cross_entropy_with_logits与sparse_softmax_cross_entropy_with_logits

softmax_cross_entropy_with_logits与sparse_softmax_cross_entropy_with_logits都是对最后的预测结果进行softmax然后求交叉熵区别在于输入的label形式sparse_softmax_cross_entropy_with_logits的label是 [batch_size],softmax_cross_e...

2019-05-10 11:16:00 111

转载 【机器学习】attention机制

参考:1、https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html转载于:https://www.cnblogs.com/zhaopAC/p/10797883.html

2019-04-30 20:09:00 119

转载 【深度学习】RNN | GRU | LSTM

目录:1、RNN2、GRU3、LSTM一、RNN1、RNN结构图如下所示:其中:$a^{(t)} = \boldsymbol{W}h^{t-1} + \boldsymbol{W}_{e}x^{t} + \mathbf{b}$$h^{t} = f(a^{t})$, f 是激励函数,sigmoid或者tanh$\hat{y}^{t} = Uh^{...

2019-01-08 19:26:00 131

转载 深度学习中优化【Normalization】

深度学习中的Normalization引言normalization中文意思是标准化,标准化就是对一组数据集合将其变成均值为0,方差为1的过程。在深度网络中主要有两种实体:神经元和相邻两层相连的权重边。根据规范化对象的不同,可以分为两类:一类是对L层网络的输出值进行Normalization的操作,再根据如何划分输出值数据集合,可以分为BatchNormalization、Lay...

2019-01-01 21:06:00 180

转载 Transformer【Attention is all you need】

前言Transfomer是一种encoder-decoder模型,在机器翻译领域主要就是通过encoder-decoder即seq2seq,将源语言(x1, x2 ... xn) 通过编码,再解码的方式映射成(y1, y2 ... ym), 之前的做法是用RNN进行encode-decoder,但是由于RNN在某一时间刻的输入是依赖于上一时间刻的输出,所以RNN不能并行处理,导致效率...

2018-12-31 14:48:00 108

转载 seq2seq

seq2seq:seq2seq就是将输入序列经过encoder-decoder变成目标序列。 如图所示,输入序列是 [A, B, C, <EOS>],输出序列是 [W, X, Y, Z, <EOS>]encoder-decoder: 主要过程就是用RNN对输入序列进行编码,然后再用RNN对上下文向量进行解码。实现方式:1、...

2018-12-30 21:21:00 114

转载 矩阵向量求导术

在标量、向量和矩阵的求导过程中一定要知道最后结果的形状。这里总结几个常见的求导形式:前言:最基础最重要的,标量对向量求导和向量对标量求导,有两种方式,分子布局和分母布局,不同的方式都是对的,只是结果缺一个转置1、矩阵乘以列向量,对列向量求导,形如 $\boldsymbol{z} = \boldsymbol{Wx},$, 求$\frac{\partial \bolds...

2018-12-26 20:13:00 295

转载 基础概念【softmax|normalizatoin|standardization】

目录一、softmax二、normalization三、standardization一、softmax为什么使用softmax,不用normalization?“max” because amplifies probability of largest“soft” because still assigns some probability to sm...

2018-12-20 15:32:00 461

转载 【tensorflow】学习笔记

1、tensorflow中dynamic_rnn和rnn有什么区别? 在tensorflow中没有找到rnn这个方法难道是废弃掉了? rnn是静态图,比如有10个时间序列,那么它将全部展开,并且存储这十个图, dynamic_rnn是动态的,不会全部存储这些图 dynamic_rnn对于不同的时间步的batch可以是长度不同的数据,它会根据不...

2018-12-07 15:46:00 62

转载 dropout含义与原理

含义在训练过程中,对神经网络单元按照一定比例暂时将其丢弃。原理由于网络参数过多,训练数据少,或者训练次数过多,会产生过拟合的现象。dropout产生的一个重大原因就是为了避免过拟合。 每一层的神经元按照不同的概率进行dropout,这样每次训练的网络都不一样,对每一个的batch就相当于训练了一个网络,dropout本质是一种模型融合的方式,当dropout设置为0.5时,模...

2018-12-01 15:37:00 148

转载 最大似然估计与期望最大化(EM)算法

一、最大似然估计与最大后验概率1、概率与统计概率与统计是两个不同的概念。概率是指:模型参数已知,X未知,p(x1) ... p(xn) 都是对应的xi的概率统计是指:模型参数未知,X已知,根据观测的现象,求模型的参数2、似然函数与概率函数似然跟概率是同义词,所以似然也是表示概率,但这个概率有些不一样。...

2018-11-25 19:33:00 1386

转载 【自然语言处理】分词方法汇总

一、关于分词 原则:颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的...

2018-11-19 15:42:00 615

转载 【自然语言处理】语言模型

语言模型什么是语言模型语言模型 就是估测一些词的序列的概率,即预测 p(w1, w2, w3 ... wn),一个应用就是句子的生成。2. 语言模型的种类Ngram ngram是一种统计的方法,它相当于固定了一个窗口,在这个窗口内的词是相关的,也就是第n个词和前n个词相关:P(s) = p(w1) p(w2|w1) p(w...

2018-11-01 11:45:00 213

转载 条件随机场(CRF)

从宏观上讲,条件随机场就是给出一个序列 X = (x1, x2 ... xn) 得到 另一个序列 Y = (y1 , y2 ... yn)。这两个序列有着一些独特的特性,满足马尔可夫随机场,我理解的满足马尔可夫随机就是 当前的状态 yi 只与 与它相连的状态(即yi-1, yi+1 )和 对应的xi相关,也即符合下图对于一个输入序列X,可以得到很多的输出序列Y,其...

2018-10-26 20:36:00 123

转载 模型评估【PR|ROC|AUC】

这里主要讲的是对分类模型的评估。1、准确率(Accuracy) 准确率的定义是:【分类正确的样本】 / 【总样本个数】,其中分类正确的样本是不分正负样本的 优点:简单粗暴 缺点:当正负样本分布不均衡的情况(假设一种极端情况,正样本1个,负样本99个),此时即使一个比较差的模型(只会将所用的样本预测成负样本),那它也有99%的准确率。总结一下就是 当样...

2018-10-19 22:34:00 159

转载 机器学习之正则化【L1 & L2】

前言L1、L2在机器学习方向有两种含义:一是L1范数、L2范数的损失函数,二是L1、L2正则化L1范数、L2范数损失函数L1范数损失函数:L2范数损失函数:L1、L2分别对应损失函数中的绝对值损失函数和平方损失函数区别:分析:robust: 与L2相比,L1受异常点影响比较小,因此稳健stable: 如果仅一个点,L1就是一个直线,L2是...

2018-10-01 10:38:00 149

转载 机器学习中的损失函数

Classification:1、0-1 1)普通01损失函数 针对于二分类问题,Y = {-1, 1}, f为预测结果,f应该是一个连续值,没有经过激励函数加工的数,如果 fy <= 0 为负 该损失函数能够直观的刻画分类的错误率,但是由于其非凸、非光滑的特点,使得算法很难直接对函数进行优化。 2)Hinge损失函数 对0-1损失...

2018-09-29 21:32:00 282

转载 线性代数

一、矩阵篇1、Jacobian矩阵(雅可比) yi是关于x=(x1, x2...)的多元函数, yi对x的导数矩阵就是雅可比矩阵2、Hessian矩阵 海森矩阵是函数的二阶偏导矩阵 3、正定、半正定矩阵4、奇异矩阵5、协方差矩阵 协方差是用来衡量两个向量之间的相关性,记作cov(X, Y) = E[(Xi - EX)T(...

2018-09-29 15:30:00 133

转载 降维【PCA & SVD】

PCA(principle component analysis)主成分分析理论依据最大方差理论最小平方误差理论一、最大方差理论(白面机器学习)对一个矩阵进行降维,我们希望降维之后的每一维数据能够有大的方差。为什么呢?因为每一维的方差越大,说明数据之间区分度高,想象一个极端的情况,降维之后的数据集所有维度 都是一样的值,方差为0,那么数据就没什么意义了...

2018-09-20 11:24:00 98

转载 c语言中堆栈和静态空间

什么是堆空间、栈空间与静态空间堆空间:由程序员自己分配空间,如malloc需要指定分配多少个多大的字节空间,不用的时候需要自己释放栈空间:栈空间是由系统自动分配与释放,如int,char等大小都已固定,局部变量,函数的参数值等静态空间:全局变量、静态变量存放在静态空间中http://www.cnblogs.com/edisonchou/p/4669098.html...

2018-09-17 21:05:00 163

转载 hive笔记

castcast(number as string), 可以将整数转成字符串lpad rpadlpad(target, 10, '0') 表示在target字符串前面补0,构成一个长度为10的字符串concat_ws 列拼接concat_ws('@', 'zhaopei', 'mail.bnu.edu.cn')splitsplit('aa|bb',...

2018-09-12 20:58:00 83

转载 进程与线程区别

http://yangcongchufang.com/%E9%AB%98%E7%BA%A7python%E7%BC%96%E7%A8%8B%E5%9F%BA%E7%A1%80/python-process-thread.html进程:线程:转载于:https://www.cnblogs.com/zhaopAC/p/9582980.html

2018-09-04 10:32:00 60

转载 自信息、信息熵和相对熵

参考:https://blog.csdn.net/happyhorizion/article/details/77894051https://blog.csdn.net/acdreamers/article/details/446577451、自信息一件事发生的概率越大,其所带的信息量就越小,反之发生的概率越小,信息量就越大。[可以这么理解,对于一件发生概率极低的事情,...

2018-08-30 21:11:00 454

转载 【机器学习】BP & softmax求导

目录一、BP原理及求导二、softmax及求导一、BP1、为什么沿梯度方向是上升最快方向 根据泰勒公式对f(x)在x0处展开,得到f(x) ~ f(x0) + f'(x0)(x-x0), 故得到f(x) - f(x0) ~f'(x0)(x-x0), 所以从x0出发,变化最快,即使f(x)-f(x0)最大,也就f'(x0)(x-x0),由于f'...

2018-08-26 21:50:00 195

转载 python中import问题

https://blog.csdn.net/aspenstars/article/details/69605318Python包含子目录中的模块方法比较简单,关键是能够在sys.path里面找到通向模块文件的路径。下面将具体介绍几种常用情况:(1)主程序与模块程序在同一目录下:如下面程序结构:`-- src |-- mod1.py `-- test1.py 若在程序...

2018-08-01 11:46:00 58

转载 [研一]反思是为了更好地进步

再交过两次作业之后研一的生活就已经彻底结束了,前阵子学校里到处都是拍毕业照的学生,想想再过两年那一群留恋母校的人就是我们了。时光荏苒,岁月如歌,去年此时,我还陶冶在清华里,做着一枚假的清华学子,期待着自己的研究生生活,今天我却要在这里细数这一年做的事情,感慨时光飞逝,痛恨自己无能无力。人的记忆真的是有限的,我努力去想上学期我在做什么,出现的只是一些零零碎碎的片段,所以记录一下自己的生...

2018-07-10 08:54:00 167

转载 机器学习中优化算法【需整理】

1、怎么证明凸函数, 二阶Hessian矩阵半正定,函数为凸函数 证明参考:https://math.stackexchange.com/questions/946156/proving-convexity-of-a-function-whose-hessian-is-positive-semidefinite-over-a-co以简单的线性回归为例,样本回归模...

2018-06-25 10:23:00 177

转载 集成学习方法

总结的很棒!https://xijunlee.github.io/2017/06/03/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93/1、随机森林https://www.cnblogs.com/maybe2030/p/4585705.htmlhttps://blog.csdn.net/login_...

2018-06-23 14:17:00 62

转载 nlp知识

1、词集模型 将每个词的出现与否作为一个特征,不考虑词频。也就是一个词在文本在文本中出现1次和多次特征处理是一样的。2、词袋模型 与词集相比,会考虑词频sklearn中 CountVectorizer与CountVectorizer: 会以每一个词作为特征,求出每一个词的词频http://www.cnblogs.com/pinard/p/6...

2018-06-19 15:09:00 77

转载 kaggle竞赛入门整理

1、Bike Sharing Demandkaggle:https://www.kaggle.com/c/bike-sharing-demand目的:根据日期、时间、天气、温度等特征,预测自行车的租借量处理:1、将日期(含年月日时分秒)提取出年,月, 星期几,以及小时 2、season, weather都是类别标记的,利用哑变量编码算法模型选取:...

2018-06-19 10:59:00 319

转载 pandas知识点

1、选择对象 1.选择特定列和行的数据a['x'] 那么将会返回columns为x的列,注意这种方式一次只能返回一个列。a.x与a['x']意思一样。取行数据,通过切片[]来选择如:a[0:3] 则会返回前三行的数据。2.loc是通过标签来选择数据a.loc['one']则会默认表示选取行为'one'的行;a.loc[:,['a','b...

2018-06-19 10:00:00 106

转载 EM算法

1、EM算法2、混合高斯模型from __future__ import print_functionimport numpy as npdef generateData(k,mu,sigma,dataNum): ''' 产生混合高斯模型的数据 :param k: 比例系数 :param mu: 均值 :par...

2018-06-18 13:59:00 94

转载 特征工程

在特征工程下面,还有许多的子问题,主要包括:Feature Selection(特征选择)、Feature Extraction(特征提取)和Feature construction(特征构造)特征选择Feature Selection1、过滤式选择 单纯地一个一个特征地去比较与 类别的关系。然后选择最大的k个特征 著名的过滤式特征选择方法是Relief...

2018-06-12 17:03:00 60

转载 【clustering】之K-means && K-medoids

k-meansk-medoids一、clustering 中的 loss function关于聚类的性能评价标准 参考博客可以为外部指标和内部指标,其中外部指标是指 聚类结果与某个 “参考模型" 进行表示, 内部指标直接考察聚类结果不参考模型外部指标:1、Jaccard系数 系属于相同类占总类数的比例, 越大说明效果越好。内部指标:...

2018-06-12 13:49:00 277

转载 sklearn学习笔记

1、preprocessing转载于:https://www.cnblogs.com/zhaopAC/p/9170591.html

2018-06-11 23:30:00 123

转载 数据可视化

一、matplotlib subplots() matplotlib.pyplot.subplots(nrows=1, ncols=1, sharex=False,sharey=False, squeeze=True, subplot_kw=None,gridspec_kw=None, **fig_kw)创建一个画像(figure)和一组子图(sub...

2018-05-10 19:51:00 85

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除