自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 深度学习在搜索广告查询词关键字匹配中的应用

搜索引擎里的广告系统Search AdvertisingDifferent names: Search ads; Paid search; Sponsored searchAd types: Text ads; Product adsAds Selection将Query跟keywords匹配。传统匹配方法:Deep Structured Semantic Mode...

2018-09-21 16:22:59 1737

原创 编码器—解码器(seq2seq)+ Attention

输入和输出都可以是不定长序列,例如机器翻译、图像描述在训练数据集中,我们可以在每个句子后附上特殊符号“”(end of sequence)表示序列的终止。编码器编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量 c,并在该背景变量中编码输入序列信息。常用的编码器是循环神经网络。循环神经网络隐藏层的变换: ht=f(xt,ht−1).ht=f(xt,ht−1).{h...

2018-09-08 14:54:10 15965

原创 文本处理——词向量

Word2VecGoogle连续词袋模型(continuous bag of words, CBOW)连续词袋模型用一个中心词在文本序列前后的背景词来预测该中心词∏t=1TP(w(t)∣w(t−m),…,w(t−1),w(t+1),…,w(t+m)).∏t=1TP(w(t)∣w(t−m),…,w(t−1),w(t+1),…,w(t+m)).\prod_{t=1}^T \...

2018-09-08 14:48:17 3828

原创 分词

对于西方拼音语言来说,从词之间由明确的分界符,而很多亚洲语言(如汉语、日语、韩语、泰语)词之间没有明确的分界符,因此需要先对句子进行分词,才能做进一步的自然语言处理(也适用于英文词组的分割、或者手写识别,平板电脑、智能手机手写时单词间的空格可能不清楚)。分词的输入是一串词,分词的输出是用分界符分割的一串词。分词的不一致性问题:越界型错误:“北京大学生” -> “北京大学”、“生...

2018-09-07 20:41:14 2117

原创 RNN-LSTM-GRU

循环神经网络(Recurrent Neural Network, RNN)假设 Xt∈Rn×dXt∈Rn×d{X}_t \in \mathbb{R}^{n \times d} 是序列中时间步 t 的小批量输入 Ht∈Rn×hHt∈Rn×h{H}_t \in \mathbb{R}^{n \times h} 该时间步的隐藏层变量。跟多层感知机不同在于这里我们保存上一时间步的隐藏变量 Ht−1H...

2018-09-06 22:28:37 1506

原创 文本处理——语言模型

统计语言模型Language modeling:P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt−1)P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt−1)\mathbb{P}(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T \mathbb{P}(w_t \mid w_1, \ldots, w_{t-1}) 举个例子:...

2018-09-04 23:04:50 1412

原创 深度学习中的优化算法和策略

绝大多数深度学习中的目标函数都很复杂。因此,很多优化问题并不存在解析解,而需要使用基于数值方法的优化算法找到近似解。这类优化算法一般通过不断迭代更新解的数值来找到近似解。我们讨论的优化算法都是这类基于数值方法的算法。非凸优化的阻碍:局部最小值、鞍点。梯度下降批量梯度下降 (batch gradient descent)在每一轮自变量迭代里,梯度下降使用整个训练数据集来计算梯...

2018-09-03 21:28:08 1874

原创 迁移学习(Transfer Learning)

将从源数据集学到的知识迁移到目标数据集上微调(fine tuning)微调通过将模型部分权重初始化成在源数据集上预训练的模型权重,从而将模型在源数据集上学到的知识迁移到目标数据上。在源数据(例如 ImageNet)上训练一个神经网络 A。创建一个新的神经网络 B,它复制了 A 上除了输出层外的所有模型参数。我们假设这些模型参数含有源数据上学习到的知识,且这些知识同样适用于目标数...

2018-09-03 20:57:06 1388

原创 分布式机器学习

三个特点可扩展。可扩展的意思是“投入更多的机器,能处理更大的数据”。而传统的并行计算要的是:“投入更多机器,数据大小不变,计算速度更快”。这是我认识中“大数据”和传统并行计算研究目标不同的地方。如果只是求速度快,那么multicore和GPU会比分布式机器学习的ROI更高。有一个框架(比如MPI或者MapReduce或者自己设计的),支持fault recovery。Fault rec...

2018-09-02 21:55:50 5329

原创 推荐系统初探

推荐系统样例:基于对用户兴趣的预测结果,为读者推荐新闻报道、短视频等。(如:今日头条)基于顾客过去的购物或商品搜索历史,为在线商店的顾客推荐他们可能要买的商品。(如:亚马逊)长尾:实体店的货架空间有限,只能给顾客展示所有存在商品的很小一部分,而在线商店能展示任何可用商品 —— 在线销售商对于传统实体销售商的优势。 同样,也是由于长尾的存在,信息爆炸,人们无法看到所有的东西,推荐系统...

2018-09-01 20:30:17 700

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除