Shingle_-CSDN博客

原创自然语言处理中的Attention机制

Attention in NLPAdvantage:integrate information over timehandle variable-length sequencescould be parallelizedSeq2seqEncoder–Decoder framework:Encoder:ht=f(xt,ht−1)h_t = f(x_t, h_{t-1})ht...

2018-10-14 13:21:29 1854

原创文本分类

应用：垃圾邮件分类、主题分类、情感分析workflow：https://developers.google.com/machine-learning/guides/text-classification/model使用字符级 ngram 的词袋模型很有效。不要低估词袋模型，它计算成本低且易于解释。RNN 很强大。但你也可以用 GloVe 这样的外部预训练嵌入套在 RNN 模型上...

2018-10-14 13:14:28 880

原创关于广告、推荐中的CTR的学于思

CTRCTR预测就是对用户是否点击广告进行预测，其实可以看成二分类问题，即点和不点。logistics回归(LR)：logistics输出的是概率，可以较为直观的解释用户点击广告的几率计算目标函数的复杂度O(N)，计算速度快，所以比较适合处理大数据没有考虑特征之间的相关性，没有特征进行组合为了提高模型性能，在模型训练之前，需要做很多的特征工程GDBT+LR:使用...

2018-10-10 21:08:47 1597

原创关于信息检索（IR）、搜索引擎的学与思

平台建设（工程、数据、算法）面对大数据业务挑战，AI·OS至多能起到30%的作用，随后是算法解决30%+，其余的靠产品和机缘，只不过AI·OS的30%是个前提条件，AI·OS发展的核心线索是优化算法迭代效率。TPP推荐业务平台、RTP深度学习预测引擎、HA3搜索召回引擎、DII推荐召回引擎、iGraph图查询引擎集群物理资源的调度任务：中台容器和隔离技术与搜索工程交汇之地，更是模型训练P...

2018-10-10 18:06:37 2509 1

原创关于问答系统（Q&A）、对话系统（Chatbot）的学与思

AnyQAnyQ(ANswer Your Questions) 开源项目主要包含面向FAQ集合的问答系统框架、文本语义匹配工具SimNet。（检索式回答）AnyQ系统框架主要由Question Analysis、Retrieval、Matching、Re-Rank等部分组成，框架中包含的功能均通过插件形式加入，如Analysis中的中文切词，Retrieval中的倒排索引、语义索引，Match...

2018-10-10 18:03:21 11047

原创关于智能运维（AIOps）的学与思

AIOps降低运维成本，提升系统效率，如：异常检测，故障发现，异常定位，异常报警聚合，异常根因分析，快速止损，异常自动修复故障预测，容量预测、智能扩容（阈值动态调整，弹性扩缩），趋势预测，热点分析AIOps要解决的是“系统+算法”问题。解决任何一个AIOps中的模块或场景，都需要有“AIOps架构师”把复杂的场景和需求拆解成具体的功能模块： “眼”、“手”、“脑”。“眼”解决那些通...

2018-10-10 17:43:11 5822

原创深度学习在搜索广告查询词关键字匹配中的应用

搜索引擎里的广告系统Search AdvertisingDifferent names: Search ads; Paid search; Sponsored searchAd types: Text ads; Product adsAds Selection将Query跟keywords匹配。传统匹配方法：Deep Structured Semantic Mode...

2018-09-21 16:22:59 1701

原创编码器—解码器（seq2seq）+ Attention

输入和输出都可以是不定长序列，例如机器翻译、图像描述在训练数据集中，我们可以在每个句子后附上特殊符号“”（end of sequence）表示序列的终止。编码器编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量 c，并在该背景变量中编码输入序列信息。常用的编码器是循环神经网络。循环神经网络隐藏层的变换: ht=f(xt,ht−1).ht=f(xt,ht−1).{h...

2018-09-08 14:54:10 15844

原创文本处理——词向量

Word2VecGoogle连续词袋模型（continuous bag of words, CBOW)连续词袋模型用一个中心词在文本序列前后的背景词来预测该中心词∏t=1TP(w(t)∣w(t−m),…,w(t−1),w(t+1),…,w(t+m)).∏t=1TP(w(t)∣w(t−m),…,w(t−1),w(t+1),…,w(t+m)).\prod_{t=1}^T \...

2018-09-08 14:48:17 3783

原创分词

对于西方拼音语言来说，从词之间由明确的分界符，而很多亚洲语言（如汉语、日语、韩语、泰语）词之间没有明确的分界符，因此需要先对句子进行分词，才能做进一步的自然语言处理（也适用于英文词组的分割、或者手写识别，平板电脑、智能手机手写时单词间的空格可能不清楚）。分词的输入是一串词，分词的输出是用分界符分割的一串词。分词的不一致性问题：越界型错误：“北京大学生” -> “北京大学”、“生...

2018-09-07 20:41:14 2024

原创 RNN-LSTM-GRU

循环神经网络（Recurrent Neural Network, RNN）假设 Xt∈Rn×dXt∈Rn×d{X}_t \in \mathbb{R}^{n \times d} 是序列中时间步 t 的小批量输入 Ht∈Rn×hHt∈Rn×h{H}_t \in \mathbb{R}^{n \times h} 该时间步的隐藏层变量。跟多层感知机不同在于这里我们保存上一时间步的隐藏变量 Ht−1H...

2018-09-06 22:28:37 1461

原创文本处理——语言模型

统计语言模型Language modeling:P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt−1)P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt−1)\mathbb{P}(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T \mathbb{P}(w_t \mid w_1, \ldots, w_{t-1}) 举个例子：...

2018-09-04 23:04:50 1377

原创深度学习中的优化算法和策略

绝大多数深度学习中的目标函数都很复杂。因此，很多优化问题并不存在解析解，而需要使用基于数值方法的优化算法找到近似解。这类优化算法一般通过不断迭代更新解的数值来找到近似解。我们讨论的优化算法都是这类基于数值方法的算法。非凸优化的阻碍：局部最小值、鞍点。梯度下降批量梯度下降（batch gradient descent）在每一轮自变量迭代里，梯度下降使用整个训练数据集来计算梯...

2018-09-03 21:28:08 1800

原创迁移学习（Transfer Learning）

将从源数据集学到的知识迁移到目标数据集上微调（fine tuning）微调通过将模型部分权重初始化成在源数据集上预训练的模型权重，从而将模型在源数据集上学到的知识迁移到目标数据上。在源数据（例如 ImageNet）上训练一个神经网络 A。创建一个新的神经网络 B，它复制了 A 上除了输出层外的所有模型参数。我们假设这些模型参数含有源数据上学习到的知识，且这些知识同样适用于目标数...

2018-09-03 20:57:06 1349

原创分布式机器学习

三个特点可扩展。可扩展的意思是“投入更多的机器，能处理更大的数据”。而传统的并行计算要的是：“投入更多机器，数据大小不变，计算速度更快”。这是我认识中“大数据”和传统并行计算研究目标不同的地方。如果只是求速度快，那么multicore和GPU会比分布式机器学习的ROI更高。有一个框架（比如MPI或者MapReduce或者自己设计的），支持fault recovery。Fault rec...

2018-09-02 21:55:50 5290

原创推荐系统初探

推荐系统样例：基于对用户兴趣的预测结果，为读者推荐新闻报道、短视频等。（如：今日头条）基于顾客过去的购物或商品搜索历史，为在线商店的顾客推荐他们可能要买的商品。（如：亚马逊）长尾：实体店的货架空间有限，只能给顾客展示所有存在商品的很小一部分，而在线商店能展示任何可用商品 —— 在线销售商对于传统实体销售商的优势。同样，也是由于长尾的存在，信息爆炸，人们无法看到所有的东西，推荐系统...

2018-09-01 20:30:17 653

原创卷积神经网络在计算机视觉中的演进

LeNet卷积神经网络net = nn.Sequential()net.add( nn.Conv2D(channels=6, kernel_size=5, activation='sigmoid'), nn.MaxPool2D(pool_size=2, strides=2), nn.Conv2D(channels=16, kernel_size=5, acti...

2018-08-31 23:40:44 1730

原创卷积神经网络中的算术问题（Convolution arithmetic）

在卷积神经网络中，一个卷积层的输出形状受它的输入形状、卷积核大小、补零（zero padding）以及步长（strides）这四个因素的影响。全连接网络没有这个限制，它的输出形状独立于输入形状，而这也几乎是卷积神经网络中最令人怯步的地方了。卷积操作在4D张量上，例如Theano：filter_shape（output_channels, ++input_channels, filte...

2018-08-31 23:37:20 992

原创 Web广告--广告定向

广告定向广告再营销（重定向）效果很好的广告定向方式。再营销是利用用户在互联网上的行为进行精准定向的广告策略。其中的行为可能包含浏览网页、搜索商品、查看感兴趣的商品信息、将有强烈购买意图的商品放入购物车等等，而“再”的意思则是指将用户感兴趣的商品信息以广告的形式再次展现在他面前。如到访再营销、搜索再营销、广告点击再营销等。简单的cookie（用于标示用户的ID）植入可以用于ret...

2018-08-27 21:14:16 1615

原创计算广告

广告是互联网行业最清晰的一种商业模式，也是大数据时代被热捧的宠儿。计算广告学旨在找到“情境”、“用户”和“广告”之间的最佳匹配，它将计算理论和经济学结合在一起，涉及博弈论、自然语言处理、机器学习等多门学科的融合。斯坦福大学对计算广告学的描述是：“计算广告学是一个综合学科，涉及大规模搜索、文本分析、信息检索、统计建模、机器学习、分类、优化和微观经济学。计算广告的核心问题是要找到在给定的环境下，用...

2018-08-27 21:12:57 1064

原创广告学与在线广告

广告的目的与效果广告：由确定的出资人通过各种媒介进行有关产品的，通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。广告的主体：出资人、媒介、受众（三方的博弈）品牌广告：创造独特良好的品牌或产品形象，目的在于提升较长时期内的离线转化率效果广告：在短期内明确用户转化行为诉求的广告。广告 vs 推荐系统：广告：文字链好于图片推荐系统：图片好于文字链搜...

2018-08-27 21:11:53 718

原创文本处理—LSA、 LDA

几个流行的VSM算法：Term Frequency * Inverse Document Frequency, Tf-Idffrom gensim import corpora, models, similaritiesdictionary = corpora.Dictionary(texts)corpus = [dictionary.doc2bow(text) for te...

2018-08-27 13:07:45 3012

原创文本匹配（Text Matching）

文本匹配的价值与应用搜索：搜索词 &amp; 文档资源Query请求（Query补全、Query解析、需求理解） -&gt;资源召回（精准召回、核心召回、语义召回） -&gt;资源排序（CTR预估模型、CVR预估模型、相关性模型） -&gt;直达曝光（UI模板系统、分层实验系统、模拟召回平台） -&gt;用户点击 -&gt;商业计价（广告接入平台、关键词售卖、推荐系...

2018-08-24 20:42:07 3265

原创奇异值分解（Singular Value Decomposition, SVD）

提取信息的强大工具。简化数据、去除噪声、提高算法结果。利用SVD实现，我们能够用小得多的数据集来表示原始数据集。这样做，实际上是去除了噪声和冗余信息。SVD时一种强大的降维工具，可以利用SVD来逼近矩阵并从中提取重要特征，通过保留矩阵80%~90%的能量，就可以得到重要特征并去掉噪声。SVD的应用这里先介绍SVD可能的用途，下一节介绍SVD相关知识。隐语义索引SVD的历...

2018-08-24 20:37:20 1121

原创 Spark学习笔记（一）——Spark编程

Apache Spark是一个分布式计算框架，旨在简化运行于计算机集群上的并行程序的编写。Spark的前辈：MPI、MapReduce特性：迭代式计算、交互式探索、内存缓存计算Spark软件栈Spark Core：任务调度、内存管理、错误恢复、与存储系统交互，弹性分布式数据集（resilient distributed dataset, RDD）Spark SQL：可与Hi...

2018-08-24 20:34:14 627

原创 Softmax数值不稳定问题

数值计算上溢和下溢计算机通过有限数量的位模式来表示无限多的实数，总会引入一些近似误差。如果涉及时没有考虑最小化舍入误差的累积，在实践时可能会导致算法实效。下溢：当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时会表现出质的不同：避免零除避免取0的对数上溢：大量级的数被近似为无穷时发生上溢。必须对上溢和下溢进行数值稳定的一个例子...

2018-08-24 20:31:33 3930

原创机器学习中的正则化方法

参数范数惩罚L1 L2 regularization正则化一般具有如下形式：（结构风险最小化）其中，第一项是经验风险，第二项是正则化项，lambda>=0为调整两者之间关系的系数。正则化项可以取不同的形式，如参数向量w的L2范数：假设以平方差为损失函数，则优化目标为：minw∑i=1m(yi−wTxi)2+λ||w||22minw∑i=1m(yi−wTxi...

2018-08-24 19:05:25 1236

原创机器学习中的特征工程

真实中，往往会发现机器学习中最有趣的挑战往往会包含一些特征工程的内容。特征生成特征生成就是从各种角度和侧面来刻画事物。通过对问题的理解，构造一些特征希望机器学习算法可以采纳。特征与特征间的运算补集笛卡儿积交集加、减、乘、除运算特征选择从给定的特征集合中选出相关特征子集。特征选择过程要确保不丢失重要特征，去除冗余特征。包含两个环节：子集搜索、子集评价。理...

2018-08-24 13:32:32 634

原创机器学习中的参数估计方法

概率模型的训练过程就是参数估计（parameter estimation）的过程。对于参数估计，统计学界的两个学派分别提供了不同的解决方案：频率主义学派（Frequentist）认为参数虽然未知，但却是客观存在的固定值，因此，可通过优化似然函数等准则来确定参数值贝叶斯学派（Beyesian）则认为参数是未观察到的随机变量，其本身也可有分布，因此，可假定参数服从一个先验分布，然后基于观测到的...

2018-08-24 13:31:31 4008

原创机器学习中的优化问题

最优化问题：解析解存在：最优解可以由公式简单计算没有解析解数值计算启发式方法例：朴素贝叶斯、隐马尔可夫：最优解即极大似然估计值，可由概率计算公式直接计算感知机、逻辑回归、最大熵模型、条件随机场：利用梯度下降法、拟牛顿法等。无拘束最优化问题的解法。支持向量机：解凸二次规划的对偶问题。有序列最小最优化算法等。决策树：启发式算法。特征选择、生成、剪枝是启发式地进行正则化的...

2018-08-24 13:30:28 2782

原创机器学习中的性能度量

回归任务均方误差（Mean squared error, MSE）E(f;D) = \frac{1}{m} \sum_{i=1}^m(f(x_i)-y_i)^2均方根误差（Root-Mean-Squared-Error, RMSE）E(f;D) = \sqrt{\frac{1}{m} \sum_{i=1}^m(f(x_i)-y_i)^2} = \sqrt{MSE(\...

2018-08-24 13:25:30 581

原创机器学习中的损失函数

监督学习问题是在假设空间中选取模型作为决策函数，对于给定的输入X，由f(x)给出对应的输出Y，这个输出的预测值可能与真实值一致或不一致，可以用损失函数（loss function）或代价函数（cost function）来度量预测错误的程度。0-1损失函数：f(x)={1,Y≠f(X)0,Y=f(X)f(x)={1,Y≠f(X)0,Y=f(X)f(x)=\left\{\b...

2018-08-24 13:22:38 576

原创 K均值算法（K-means）

K均值聚类容易实现，但是可能收敛到局部最小值，影响K-means效果的因素：K值的选择初始化质心距离度量优：只需要计算数据点与聚类中心的距离，其计算复杂度只有O(n)。缺：十分依赖于初始给定的聚类数目；同时随机初始化可能会生成不同的聚类效果，所以它缺乏重复性和连续性。伪代码：创建k个点作为起始质心（通常是随机选择）当任意一个点的簇分配结果发生改变时：对数据集...

2018-08-23 01:03:55 2466

原创聚类

聚类既能作为一个单独过程，用于寻找数据内在的分布结构，也可作为分类等其他学习任务的前驱过程。聚类算法涉及了2个基本问题——性能度量和距离计算（详见单独Blog）维度灾难在开始聚类前，先了解一个概念——维度灾难。高维的欧式空间具有一些非直观的有时被称为“维度灾难”的性质。非欧式空间也往往具有同样的反常情况。“灾难”的一个表现时，在高维空间下，几乎所有的点对之间的聚类都差不多相等。...

2018-08-23 01:03:01 1375

原创无监督学习

无监督学习只处理“特征”，不操作监督信号。大多数尝试是指从不需要人为注释的样本的分布中抽取信息，如密度估计、学习从分布中采样、学习从分布中去噪、寻找数据分布的流形、将数据中相关的样本聚类聚类KMeans降维主成分分析（PCA）奇异值分解（SVD）无监督深度学习自编码机（AutoEncoder）:自编码器和数据压缩算法背后的逻辑差不多，用一个子集...

2018-08-23 01:02:23 778

原创集成学习（Bagging、Boosting、Stacking）

组合多个学习器：集成方法（ensemble method）或元算法（meta-algorithm）。不同算法的集成（集成个体应“好而不同”）同一算法在不同设置的集成数据集不同部分分配给不同分类器之后的集成集成学习中需要有效地生成多样性大的个体学习器，需要多样性增强：对数据样本进行扰动（敏感：决策树、神经网络；不敏感：线性学习器、支持向量机、朴素贝叶斯、k近邻）对 ...

2018-08-23 01:01:20 7556 2

原创决策树算法（ID3、C4.5、CART）

决策树学习是由训练数据集估计条件概率模型，损失函数通常是正则化的极大似然函数，算法依据信息论来划分数据集。优势：数据形式非常好理解，计算复杂度不高，对缺失值不敏感，可以处理不相关特征缺点：容易过拟合专家系统中经常使用决策树伪代码：（递归函数，递归结束的条件：程序遍历完所有划分数据集的属性，或者每个分支下的所有实例都具有相同的分类。如果数据集已经处理了所有属性，但是类标签依然不是唯一...

2018-08-23 00:57:15 531

原创感知机 - 支持向量机

感知机1957年由Rosenblatt提出，是神经网络与支持向量机的基础。感知机是根据输入实例的特征向量x对其在进行二类分类的线性分类模型：f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)感知机模型对应于输入空间（特征空间）中的分离超平面wx+b=0感知机学习的策略是极小化损失函数：minw,bL(w,b)=−1...

2018-08-23 00:53:30 656

原创最大熵模型

最大熵原理最大熵原理是概率模型学习或估计的一个准则，最大熵原理认为在所有可能的概率模型（分布）的集合中，熵最大的模型就是最好的模型。熵：H(P)=−∑xP(x)logP(x)H(P)=−∑xP(x)logP(x)H(P) = - \sum_x P(x)logP(x) 满足：0≤H(P)≤log|X|0≤H(P)≤log|X|0 \le H(P) \le log|X...

2018-08-23 00:47:36 546

原创逻辑回归

逻辑回归（Logistic Regression）判别模型：我们只需要学习P(y|x)。让步比（odds ratio）：假设一个特征有0.9的概率属于类别1，P(y=1)=0.9。那让步比为：P(y=1)/P(y=0) = 0.9/0.1 = 9。让步比范围0到正无穷。取对数后将所有0到1之间的概率映射到负无穷到正无穷，更高的概率对应于更高的让步比对数。线性等式： yi=w0+w...

2018-08-23 00:45:28 961

空空如也

空空如也