搬用工tyler-CSDN博客

原创协同过滤推荐算法（CF）

协同过滤用户行为蕴藏着很多模式，著名的“啤酒和尿布”的故事就是用户行为模式的良好体现。基于用户行为推荐的主要思想是利用已有用户的历史行为数据（显式反馈或隐式反馈），预测当前用户可能感兴趣的物品，其中显式反馈主要为用户评分，隐式反馈主要包括浏览、搜索等。基于用户行为的推荐算法也称为协同过滤算法（Collaborative Filtering Recommendation），是推荐领域应用最广泛的...

2020-04-06 22:56:50 1195

原创基于内容的推荐算法（CB）

简介Collaborative Filtering Recommendations (协同过滤，简称CF) 是目前最流行的推荐方法，在研究界和工业界得到大量使用。但是，工业界真正使用的系统一般都不会只有CF推荐算法，Content-based Recommendations (CB) 基本也会是其中的一部分。CB应该算是最早被使用的推荐方法吧，它根据用户过去喜欢的产品（本文统称为 item），...

2020-04-06 21:22:27 1271

原创条件随机场（CRF）

从例子说起——词性标注问题-----啥是词性标注问题？非常简单的，就是给一个句子中的每个单词注明词性。比如这句话：“Bob drank coffee at Starbucks”，注明每个单词的词性后是这样的：“Bob (名词) drank(动词) coffee(名词) at(介词) Starbucks(名词)”。下面，就用条件随机场来解决这个问题。以上面的话为例，有5个单词...

2020-04-06 11:59:52 185

原创隐马尔可夫模型（HMM）

概率图模型概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具，最常见的是用一个结点表示一个或一组随机变量，结点之间的边表示变量间的概率相关关系，即“变量关系图”。根据边的性质不同，概率图模型可大致分为两类：第一类是使用有向无环图表示变量间的依赖关系，称为有向图模型或贝叶斯网；第二类是使用无向图表示变量间的相关关系，称为无向图模型或马尔科夫网。隐马尔可夫模型隐马尔可夫模型是结构...

2020-04-05 17:51:23 494

原创随机森林（RF）

BaggingBagging基本流程：采样出TTT个包含mmm个训练样本的采样集基于每个采样集合训练出一个基学习器将这些基学习器结合对于分类任务通常使用简单投票法；回归任务使用简单平均法优点：训练一个Bagging集成与直接使用基学习器算法训练一个学习器的复杂度同阶，说明Bagging是一个高效的集成学习算法与标准的AdaBoost只适用于二分类任务不同，Bagging能不经...

2020-04-04 19:13:02 377

原创 Xgboost

目标函数Xgboost与GBDT比较大的不同就是目标函数的定义，xgboost的目标函数如下图所示：其中，红色箭头所指向的lll即为损失函数，比如平方损失函数： l(yi,y^i)=(yi−y^i)2l(y_i,\hat{y}_i) = (y_i-\hat{y}_i)^2l(yi,y^i)=(yi−y^i)2，或logistic损失函数l(yi,y^i)=yiln(1+e−y^...

2020-04-04 18:25:22 210

原创 GBDT

GBDT回归树GBDT使用的决策树是CART回归树，无论是处理回归问题还是二分类以及多分类，GBDT使用的决策树通通都是CART回归树。为什么不用CART分类树呢？因为GBDT每次迭代要拟合的是梯度值，是连续值所以要用回归树。对于回归树算法来说最重要的是寻找最佳的划分点，那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标准是熵或者基尼系数，都是用纯度来衡量的，...

2020-04-03 17:58:38 189

原创 CART决策树

CART简介CART算法采用二分递归分割的技术将当前样本集分为两个子样本集，使得生成的每个非叶子节点都有两个分支。非叶子节点的特征取值为True和False，左分支取值为True，右分支取值为False，因此CART算法生成的决策树是结构简洁的二叉树。CART可以处理连续型变量和离散型变量，利用训练数据递归的划分特征空间进行建树，用验证数据进行剪枝。如果待预测分类是离散型数据，则CART生成...

2020-04-02 22:15:07 463

原创 AdaBoost

BoostingBoosting是一族可将弱学习器提升为强学习的算法，机制为：先从初始训练集训练出一个基学习器根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注然后基于调整后的样本分布来训练下一个基学习器以上重复进行，直至基学习器数目达到事先指定的值TTT最终将这TTT个基学习器进行加权结合AdaBoostAdaBoost是Boostin...

2020-04-01 18:02:18 338

原创 Logistic回归进化之FTRL

SGD算法GD算法SGD算法与SGD比较，GD需要每次扫描所有的样本以计算一个全局梯度，SGD则每次只针对一个观测到的样本进行更新。通常情况下SGD可以更快的逼近最优值，而且SGD每次更新只需要一个样本，使得它很适合进行增量或者在线计算（也就是所谓的Online learning）。稀疏解代和选取模型的时候我们经常希望得到更加稀疏的模型，这不仅仅起到了特征选择的作用，也降低了预测...

2020-03-31 19:17:30 351

原创 CTR之LR、MLR、GBDT+LR

LRLR模型是广义线性模型，从其函数形式来看，LR模型可以看做是一个没有隐层的神经网络模型（感知机模型)LR模型一直是CTR预估问题的benchmark模型，由于其简单、易于并行化实现、可解释性强等优点而被广泛使用。然而由于线性模型本身的局限，不能处理特征和目标之间的非线性关系，因此模型效果严重依赖于算法工程师的特征工程经验。为了让线性模型能够学习到原始特征与拟合目标之间的非线性关系，通常需要...

2020-03-31 16:40:05 482

原创 Logistic回归

概念Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题LR分类器适用数据类型：数值型和标称型数据。其优点是计算代价不高，易于理解和实现；其缺点是容易欠拟合，分类精度可能不高。多维特征的训练数据进行LR时特征值必须做scale，确保特征的取值在相同的尺度内计算才会收敛。模型多元线性回归模型：y=θTxy=\theta^Txy=θTxLogist...

2020-03-31 16:32:18 250

原创 CTR之FM、FFM、DeepFM

背景：在传统的线性模型中，每个特征都是独立的，如果需要考虑特征与特征之间的相互作用，可能需要人工对特征进行交叉组合；非线性SVM可以对特征进行核变换，但是在特征高度稀疏的情况下，并不能很好的进行学习；综上提出了FM系列算法FM数据模型上表达特征xi，xj的组合用xixj表示，即所说的多项式模型，通常情况下只考虑两阶多项式模型，也就是特征两两组合的问题，模型表达如下：y=ω0+∑i=...

2020-03-30 18:52:23 398

原创推荐系统综述

总体推荐系统通常分为召回和排序两个步骤召回：粗排选取合适的内容，可以通过协同过滤，兴趣tag，内容最热等方式排序（CTR预估）：使用一个点击率预估模型（输入用户特征，内容特征，用户内容交叉特征等）对召回出来的内容进行排序召回常用算法排序常用算法...

2020-03-30 16:29:33 434

原创语义处理之主题模型

背景：词集模型词袋模型tfidf主题模型LSA/LSI（主题模型）：特征选择，一般不抽象为主题，但是可以联想到主题。原理：奇异值分解+降维处理，参考：https://www.jianshu.com/p/9fe0a7004560LDA：文档-主题-词模型，提炼出主题概念。原理：隐含狄利克雷分布，参考：https://blog.csdn.net/pipisorry/article/d...

2020-03-27 12:05:42 247

原创语义处理之意图识别与槽位

意图的识别实际上是一个分类问题，如基于规则，传统机器学习算法 (SVM)，基于深度学习算法（CNN, LSTM, RCNN, C-LSTM, FastText）等Slot识别实际上是一种序列标记的任务，如基于规则 (Phoenix Parser)，基于传统机器学习算法 (DBN; SVM)，基于深度学习算法（LSTM, Bi-RNN, Bi-LSTM-CRF）。参考：https://blog....

2020-03-27 11:05:29 2093

原创语义处理

自然语言处理领域涉及到的语义处理有：中心词提取意图识别主题分析语义分析其中结构层面有：句法分析

2020-03-27 10:37:06 524

原创词处理之关系抽取

在知识图谱构建中意义重大传统方式依存句法分析参考https://blog.csdn.net/qq_36426650/article/details/84668741神经网络方式基于文本的卷积神经网络（Text-CNN）的关系抽取将关系理解成分类问题...

2020-03-27 10:26:09 334

原创词处理之命名实体识别NER

命名实体识别属于词性标注问题基于规则：如：NTU系统、FACILE系统、OKI系统。缺点：缺乏鲁棒性和可移植性，对于每个新领域的文本都需要更新规则来保持最优性能，而这需要大量的专门知识和人力，代价往往非常大。基于统计：隐马尔科夫模型（HMM）条件随机场（CRF）：相当于增加了规则如：n元模型、隐马尔科夫模型（HMM）、最大熵模型（ME）、决策树、基于转换的学习方法、推进方法、表决感知...

2020-03-27 10:18:43 312

原创词处理之词向量

概念把词转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而 Word2vec，就是词嵌入（ word embedding) 的一种。词的表示one-hotword embeddingword2vecword2vec1.跳字模型（skip-gram）将CBOW模型倒过来2.连续词袋模型（continuous bag of...

2020-03-27 00:01:28 611 1

原创词处理之分词

参考https://cloud.tencent.com/developer/article/1591668分词原理1.基于字典向前最大匹配，向后最大匹配等2.基于统计基于语言模型，N-Gram语言模型基于统计机器学习，中文分词可以建模成序列标注问题，即一个考虑上下文的字分类问题。因此可以先通过带标签的分词语料来训练一个序列标注模型，再用这个模型对无标签的语料进行分词。1.隐马尔可夫...

2020-03-26 23:25:39 244

原创词处理

自然语言处理领域涉及到的词处理有：分词词性标注专名识别新词发现词向量表示

2020-03-26 21:21:05 140

原创 NLG之图像生成文本

1.Multi-Modal RNN百度提出模型核心结构：Multimodal层有三个输入：（三个输入进行拼接之后再进行512的全连接层）1.embedding2做全连接的输出2.embedding2做RNN的输出3.图像经过卷积神经网络（alexnet）最后全连接层的输出示意图2.Show and Tell李飞飞团队模型特点：1.使用更强大的cnn：googlenet...

2020-03-26 21:04:42 701

原创 NLG之语言模型

语言模型演化1.N-Gram概率语言模型需要做平滑处理，因为语料不能覆盖所有情况，否则概率都为0，无法生成句子（数据稀疏问题）2.基于NN（神经网络）与N-Gram模型很像是矩阵因子分解（Matrix Factorization）的进化相比N-Gram减少了参数量3.基于RNN（循环神经网络）可以依赖更长的信息减少了参数量4.Class-based Languag...

2020-03-26 20:29:20 678

原创 NLG之对话系统

1.对话系统按功能分类1.1闲聊型：根据上下文进行意图识别、情感分析等，然后生成开放性回复；1.2任务型：在NLU（领域分类和意图识别、槽填充）、DST、DPL的基础上，根据学习到的策略来生成对话回复，一般回复包括，澄清需求、引导用户、询问、确认、对话结束语等。1.3知识问答型：根据问句类型识别与分类、信息检索或文本匹配生成用户需要的知识（知识、实体、片段等），这类回复相比单纯的...

2020-03-26 17:18:53 361

原创文本生成NLG

参考：https://www.jianshu.com/p/ffbd9abc5fffNLG的常见形式text to text，如对话机器人data to text，如BI报告生成image to text，如图片自动描述NLG的发展过程简单的数据合并模板化的 NLG高级 NLGNLG的6个步骤第一步：内容确定 - Content Determination作为第一步...

2020-03-26 16:57:16 1303

原创文本分类

文本分类发展过程：词匹配法知识工程统计学习（Rocchio算法、朴素贝叶斯）机器学习（KNN SVM）深度学习（CNN LSTM）FastTextTextCNNTextRNNTextRNN+Attention（处理长序列）：等同HANTextRCNN：FastText词向量求平均+DNNTextRNN1.普通LSTM使用最后一个状态劣势：最后输出跟最近的输入...

2020-03-20 16:05:03 411 1

原创 LSTM

引一篇很好的博文： https://blog.csdn.net/zhaojc1995/article/details/80572098

2020-03-20 15:54:31 142

原创神经网络优化常用技巧

数据有关数据增强数据集分布平衡先在小数据集上训练，看是否过拟合，过拟合了可以说明模型没问题模型结构增加或减少模型层次考虑BN层考虑Dropout层Fine-Tuning技术，对一些成熟网络微调优化算法SGD（随机梯度下降）通常训练时间更长，最终效果更好，但需要好的初始化和Learning rate需要训练较深较复杂的网络且需要快速收敛时，推荐使用AdamAdagr...

2020-03-20 15:45:46 197

原创过拟合解决方式及原理

降低模型复杂度减小迭代次数数据增强正则化批归一化通过规范化手段，把每层神经网络任意神经元的输入值的分布强行拉回到均值为0，方差为1的标准正态分布，对数据分布增加约束即一定程度破坏了原来的数据分布，相当于增加了噪声，所以缓解过拟合。使用bn后可以取消dropout和L2Dropout...

2020-03-20 15:17:56 224

原创多分支卷积神经网络

SiameseNet两个输入孪生网络：解决度量问题，如两张图片的相似度，如与库中人脸比对常常伴有余弦距离计算，与之对应的loss有：center loss，cosface，AMsoftmax等TripletNet三个输入：anchor，positive，negative目标：同类距离尽可能小，不同类距离尽可能大细粒度的识别任务正负样本比例失衡— 难例挖掘...

2020-03-20 11:30:10 6521

原创轻量级卷积神经网络

SqueezeNetFire Module：Squeeze层和Expand层类似Inception结构深度压缩方法MobileNet（google）精度损失可控范围内，大幅度降低参数和计算量模型结构：深度可分离卷积，每个分组都是由一通道组成1.深度卷积（Depth-wise）：每一个channel为一个组，减少参数量，损失了通道之间的关联2.点卷积（Point-wise）：1...

2020-03-20 11:17:01 2334

原创卷积神经网络进化

总体阿尔法：AlexNet更深：VGG、ResNet更宽：InceptionNet更深+更宽：InceptionResNet（Inception+Res）更轻量级：MobileNet等1.AlexNet1.首次使用ReLU2.使用了2-GPU并行结构3.使用了归一化层（注意不是batch normalization，后续弃用）4.使用了数据增强技术5.两个全连接层使用了dro...

2020-03-19 19:02:10 257

原创卷积和池化

卷积优势：1.图像具有局部特性（局部连接，局部感受野）2.参数共享（特征跟位置无关，一个眼睛在两边还是中间都是眼睛）3.训练速度快，因为很多芯片对卷积操作有优化实现，Im2col特点：1.卷积核大小选择奇数，是为了保护位置信息，因为有中心点，另外padding时是对称的2.步长设置为大于1时为降采样，与pooling相比，好处是降低了计算量，缺点是损失了一些信息3…参数与图像尺寸无...

2020-03-19 18:47:38 294

原创梯度消失解决方式及原理

梯度消失解决方式及原理解决梯度消失都围绕了求导计算，在此汇总了一些比较容易理解的，列举如下：resnet：linkbn：linklstm：linkrelu激活函数

2020-03-19 18:26:11 494

tyler_张的博客