自然语言处理中的Attention机制

Attention in NLP Advantage: integrate information over time handle variable-length sequences could be parallelized Seq2seq Encoder–Decoder framewor...

2018-10-14 13:21:29

阅读数 871

评论数 0

文本分类

应用:垃圾邮件分类、主题分类、情感分析 workflow: https://developers.google.com/machine-learning/guides/text-classification/ model 使用字符级 ngram 的词袋模型很有效。不要低估词袋模型,它计算...

2018-10-14 13:14:28

阅读数 441

评论数 0

关于广告、推荐中的CTR的学于思

CTR CTR预测就是对用户是否点击广告进行预测,其实可以看成二分类问题,即点和不点。 logistics回归(LR): logistics输出的是概率,可以较为直观的解释用户点击广告的几率 计算目标函数的复杂度O(N),计算速度快,所以比较适合处理大数据 没有考虑特征之间的相关性,没...

2018-10-10 21:08:47

阅读数 941

评论数 0

关于信息检索(IR)、搜索引擎的学与思

平台建设(工程、数据、算法) 面对大数据业务挑战,AI·OS至多能起到30%的作用,随后是算法解决30%+,其余的靠产品和机缘,只不过AI·OS的30%是个前提条件,AI·OS发展的核心线索是优化算法迭代效率。 TPP推荐业务平台、RTP深度学习预测引擎、HA3搜索召回引擎、DII推荐召回引擎...

2018-10-10 18:06:37

阅读数 884

评论数 0

关于问答系统(Q&A)、对话系统(Chatbot)的学与思

AnyQ AnyQ(ANswer Your Questions) 开源项目主要包含面向FAQ集合的问答系统框架、文本语义匹配工具SimNet。(检索式回答) AnyQ系统框架主要由Question Analysis、Retrieval、Matching、Re-Rank等部分组成,框架中包含的功能均...

2018-10-10 18:03:21

阅读数 3149

评论数 0

关于智能运维(AIOps)的学与思

AIOps 降低运维成本,提升系统效率,如: 异常检测,故障发现,异常定位,异常报警聚合,异常根因分析,快速止损,异常自动修复 故障预测,容量预测、智能扩容(阈值动态调整,弹性扩缩),趋势预测,热点分析 AIOps要解决的是“系统+算法”问题。解决任何一个AIOps中的模块或场景,都需要有“A...

2018-10-10 17:43:11

阅读数 1711

评论数 0

深度学习在搜索广告查询词关键字匹配中的应用

搜索引擎里的广告系统 Search Advertising Different names: Search ads; Paid search; Sponsored search Ad types: Text ads; Product ads Ads Selection 将Query跟k...

2018-09-21 16:22:59

阅读数 836

评论数 0

编码器—解码器(seq2seq)+ Attention

输入和输出都可以是不定长序列,例如机器翻译、图像描述 在训练数据集中,我们可以在每个句子后附上特殊符号“”(end of sequence)表示序列的终止。 编码器 编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量 c,并在该背景变量中编码输入序列信息。常用的编码器是循环神经...

2018-09-08 14:54:10

阅读数 3797

评论数 0

文本处理——词向量

Word2Vec Google 连续词袋模型(continuous bag of words, CBOW) 连续词袋模型用一个中心词在文本序列前后的背景词来预测该中心词 ∏t=1TP(w(t)∣w(t−m),…,w(t−1),w(t+1),…,w(t+m)).∏t=1TP(w(t)...

2018-09-08 14:48:17

阅读数 1346

评论数 0

分词

对于西方拼音语言来说,从词之间由明确的分界符,而很多亚洲语言(如汉语、日语、韩语、泰语)词之间没有明确的分界符,因此需要先对句子进行分词,才能做进一步的自然语言处理(也适用于英文词组的分割、或者手写识别,平板电脑、智能手机手写时单词间的空格可能不清楚)。 分词的输入是一串词,分词的输出是用分界符...

2018-09-07 20:41:14

阅读数 997

评论数 0

RNN-LSTM-GRU

循环神经网络(Recurrent Neural Network, RNN) 假设 Xt∈Rn×dXt∈Rn×d{X}_t \in \mathbb{R}^{n \times d} 是序列中时间步 t 的小批量输入 Ht∈Rn×hHt∈Rn×h{H}_t \in \mathbb{R}^{n \t...

2018-09-06 22:28:37

阅读数 462

评论数 0

文本处理——分布式假设

分布式假设,其核心思想为出现于上下文情景中的词汇都有相类似的语义。采用这一假设的研究方法大致分为以下两类:基于技术的方法 (e.g. 潜在语义分析), 和 预测方法 (e.g. 神经概率化语言模型). 简而言之: 基于计数的方法计算某词汇与其邻近词汇在一个大型语料库中共同出现的频率及其他统计...

2018-09-05 21:31:28

阅读数 767

评论数 0

文本处理——语言模型

统计语言模型 Language modeling: P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt−1)P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt−1) \mathbb{P}(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T ...

2018-09-04 23:04:50

阅读数 439

评论数 0

深度学习中的优化算法和策略

绝大多数深度学习中的目标函数都很复杂。因此,很多优化问题并不存在解析解,而需要使用基于数值方法的优化算法找到近似解。这类优化算法一般通过不断迭代更新解的数值来找到近似解。我们讨论的优化算法都是这类基于数值方法的算法。 非凸优化的阻碍:局部最小值、鞍点。 梯度下降 批量梯度下降 (ba...

2018-09-03 21:28:08

阅读数 606

评论数 0

迁移学习(Transfer Learning)

将从源数据集学到的知识迁移到目标数据集上 微调(fine tuning) 微调通过将模型部分权重初始化成在源数据集上预训练的模型权重,从而将模型在源数据集上学到的知识迁移到目标数据上。 在源数据(例如 ImageNet)上训练一个神经网络 A。 创建一个新的神经网络 B,它复制了 A ...

2018-09-03 20:57:06

阅读数 684

评论数 0

分布式机器学习

三个特点 可扩展。 可扩展的意思是“投入更多的机器,能处理更大的数据”。而传统的并行计算要的是:“投入更多机器,数据大小不变,计算速度更快”。这是我认识中“大数据”和传统并行计算研究目标不同的地方。如果只是求速度快,那么multicore和GPU会比分布式机器学习的ROI更高。 有一个框架(...

2018-09-02 21:55:50

阅读数 1288

评论数 0

推荐系统初探

推荐系统样例: 基于对用户兴趣的预测结果,为读者推荐新闻报道、短视频等。(如:今日头条) 基于顾客过去的购物或商品搜索历史,为在线商店的顾客推荐他们可能要买的商品。(如:亚马逊) 长尾:实体店的货架空间有限,只能给顾客展示所有存在商品的很小一部分,而在线商店能展示任何可用商品 —— 在线...

2018-09-01 20:30:17

阅读数 391

评论数 0

卷积神经网络在计算机视觉中的演进

LeNet 卷积神经网络 net = nn.Sequential() net.add( nn.Conv2D(channels=6, kernel_size=5, activation='sigmoid'), nn.MaxPool2D(pool_size=2, strides...

2018-08-31 23:40:44

阅读数 852

评论数 0

卷积神经网络中的算术问题(Convolution arithmetic)

在卷积神经网络中,一个卷积层的输出形状受它的 输入形状、卷积核大小、补零(zero padding)以及步长(strides) 这四个因素的影响。全连接网络没有这个限制,它的输出形状独立于输入形状,而这也几乎是卷积神经网络中最令人怯步的地方了。 卷积操作在4D张量上,例如 Theano:fi...

2018-08-31 23:37:20

阅读数 371

评论数 0

Web广告--广告定向

广告定向 广告再营销(重定向) 效果很好的广告定向方式。 再营销是利用用户在互联网上的行为进行精准定向的广告策略。其中的行为可能包含浏览网页、搜索商品、查看感兴趣的商品信息、将有强烈购买意图的商品放入购物车等等,而“再”的意思则是指将用户感兴趣的商品信息以广告的形式再次展现在他面前。如到...

2018-08-27 21:14:16

阅读数 670

评论数 0

提示
确定要删除当前文章?
取消 删除