ML知识笔记

尽量少的标注数据:

1. 标注少量数据,形成标注集合

2. 用标注集合训练一个分类器A;

3. 用分类器A来在所有样本上预测,将分得最明确的样本加入标注集合; 将分得靠近边界的”模糊“结果点,进行人工标注,放入标注集合;

4. 跳转至2

xgboost,GBDT在广告中的应用:

把用户和广告提出特征来,做组合,例如:男性&IT类, 统计这个类型下的点击率;来一个新样本,对应在这个特征上的点击率,作为一个特征值; 所有特征值就是GBDT输入特征向量;

-  自然语言处理第一番之文本分类器

CNN, RNN, LSTM 相关论文

Convolutional Neural Networks for Sentence Classification

《Recurrent Convolutional Neural Networks for Text Classification 》: 

[c-left(x); x; c-right(x)]3个向量连接起来,再过一层FC,再词们-->一个句子这样max-pooling,得到语义向量;

max-pooling中,哪些词被选中得多,说明这些词更重要,可以列出来看看!

可以保留stop-word和标点符号,他们也有自己的word-embedding向量;

CNN那种,窗口太小的话,无法包含更多上下文信息;窗口太大,又太稀疏;

A C-LSTM Neural Network for Text Classification

调参经验:

  1. 当使用DL Embedding层时,如Word2vec中若不存在该词时,请不要随意扔掉,可选择随机初始化,可以的话统计不存在词数,如果数量较大,需分析相关原因;
  2. 切词的好坏在一定程度上影响模型性能,但是如果使用不同的工具性能影响更大,因此,在使用pretrain word2vec和后面训练数据时,请确保使用相同分词工具,大坑,在我的task上提升至少0.07+;
  3. 大的语料上的生成的比较通用的word2vec模型,可能比较有效,但是当你想提升准确率时,如果数据量够的话,可以考虑自己训练word2vec,很有效;
  4. 当上面都差不多没问题的时候,如果想再提升下,可以打开Embedding的trainable,比较合理的解释,word2vec的weight是一个无监督学习任务,根据词的共现算的,结合task来再更新往往会更有效;

- Deep&Wide Learning论文阅读笔记:

User Installed App: 用户已经安装过的APP们;每个sample里,几个或十几个或几十个App为1,其他都为0

Impression App: 推荐给用户的App; 每个sample里,只有1个App为1,其他都为0 

Sample的Label:0或者1;表示这个Impression App有没有被用户安装; 预测的时候,结果越大表示该impression App的rank越靠前

- FNN, PNN, DeepFM:

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

FM, FNN, PNN, Deep&Wide, DeepFM,几种网络的对比

Attentive Collaborative Filtering: Multimedia Recommendation with Item- and Component-Level Attention

Component-level attention: 视频中的每一帧/图片中的每个区域,作为一个component内容向量(CNN倒数第2层); β(i, l, m)表示用户i对item-i的第m个component的attention程度;

Item-level attention: α(i, l)表示用户i对item-l的attention程度;

u(i)表示用户隐向量;x(l,m)表示第item-l的第m个component的内容向量;p(l)表示item-l对用户的贡献隐向量;v(l)表示item-l的隐向量;

u(i)和x(l,m)==>β(i, l, m)

β(i, l, m)加权x(l,m),之和==>x(l)平均

u(i),x(l)平均,p(l),v(l) ==> α(i, l)

α(i, l)加权p(l),之和,再加上u(i) ==> 考虑了item的用户向量; 该向量乘以item-j的v(j),得到ranking分数R(i, j)

本质上还是以User-Item点击为核心,加入了item的component内容向量,计算了2种attention用来加权;

用户和他点击过的样本作正例;用户和(没点击的样本里)随机的样本作负例;Pair-wise ranking loss.

GMIS 2017 大会陈雨强演讲:机器学习模型,宽与深的大战

VC维,数据量 --> 过拟合,欠拟合

沿着模型优化:通过机器学习首先,观察数据;第二,找到规律;第三,根据规律做模型的假设;第四,对模型假设中的参数用数据进行拟合;第五,把拟合的结果用到线上,看看效果怎么样。这是模型这条路在工业界上优化的方法。

沿特征优化: 主要的工作是针对具体的应用提取特征

宽与深的大战:

追求更高的 VC 维有两条路:一个是走宽的、离散的那条路,即 Google AdWords 的道路;也可以走深的那条路,比如深度学习。这就是深与宽的大战,因为宽与深在工业界都有非常成功的应用案例,坚信宽与深的人很长一段时间是并不互相理解的。坚信深度学习、复杂模型的人认为,宽的道路模型太简单了,20 年就把所有的理论研究透彻,没有什么更多的创新,这样的技术不可能在复杂问题上得到好的结果。坚信宽的模型的人,攻击深度模型在某些问题上从来没有真正把所有的数据都用好,从来没有发挥出数据全部的价值,没有真正的做到特别细致的个性化。的确深度模型推理做得好,但个性化、记忆方面差很多。
宽与深的模型并没有谁比谁好,这就是免费午餐定理:不同业务使用不同的模型,不同的模型有不同的特点。我们对比一下宽度模型与深度模型:宽度模型有比较准确的记忆能力,深度模型有比较强的推理能力;宽度模型可以说出你的历史,在什么情况下点过什么广告,深度模型会推理出下次你可能喜欢哪一类东西。宽度模型是依靠层次化特征进行泛化的,有很强的解释性,虽说特征很多,但是每一个预估、为什么有这样的预估、原因是什么,可以非常好的解释出来;深度模型是非常难以解释的,你很难知道为什么给出这样的预估。宽度模型对平台、对工程要求非常高,需要训练数据非常多、特征非常多;深度模型对训练数据、对整个模型要求相对较低一点,但现在也是越来越高的。还有一个非常关键的区别点,如果你是 CEO、CTO,你想建一个机器学习的系统与团队,这两条路有非常大的区别。宽度模型可以比较方便与统一的加入业务知识,所以优化宽度模型的人是懂机器学习并且偏业务的人员,把专业的知识加入建模,其中特征工程本身的创新是提升的关键;如果走深度模型,模型的创新是关键,提升模型更关键来自于做 Machine Learning 的人,他们从业务获得知识并且得到一些假设,然后把假设加入模型之中进行尝试。

线下效果好,线上效果差,什么原因?怎么办?

你在线上使用的时候会发现,你碰到的数据和你线下训练的数据是不一样的,你的基线模型效果越好,你的数据是越有偏差,训练出来的模型越难真正在线上产生好的效果。所以说,我们需要有很多机制让这个事情做得更好,包括更多的强化学习等方式。

GMIS 2017大会漆远演讲:AI 驱动金融生活

GMIS 2017 大会 Leo Dirac 演讲:MXNet在分布式机器学习训练中的优势

MXNet在进行AlexNet任务中可以可以达到接近90%的效率,即使是在同时使用256个GPU时也能保证88%的运行效率

GMIS 2017大会葛冬冬演讲:人工智能时代,运筹学能做些什么?

机器人运货系统:用到运筹学,整数规划。处理不碰撞:增加时间维度,将2维空间变为3维空间,在3维空间上无重合即可。

GMIS 2017 大会余凯演讲:深度学习引领驾驶革命

大量训练样本如何不用人工标注:

1. 基于点击日志,构造搜索相关性样本;

2. Alphago,虚拟棋局;

从自动驾驶的角度来讲,从司机、使用者的自然行为去学习;  或者构建一个仿真系统,在封闭环境中,让汽车充分暴露控制算法里各种边界的问题,然后去自我提升

深度神经网络与 Bayes Networks 结合

GMIS 2017 大会朱军演讲:贝叶斯深度学习的 GPU 库-珠算

“Bayesian Deep Learning”,其既有贝叶斯本身的可解释性,可以从少量的数据里边来学习,另外又有有深度学习非常强大的拟合能力。

GMIS 2017大会戴文渊演讲:构建AI商业大脑

GMIS 2017大会马维英演讲:信息流的未来与人工智能的机会

今天,在头条上对每个用户建立了一个很高维的向量表,每篇文章不论是新闻、图片、视频、直播、问题或答案,都是一个高维向量的深度学习学出来的表。在中国今日头条有海量用户,机器知道他们在什么时候想看什么,这些信息帮助我们理解了用户。

头条开发了很多人工智能的标注工具,帮助他们标注的更好,他们标注的结果可以得到一些另外的反馈,又重新来帮助我们的机器学习,机器学习又学出更好的算法,又提供更好的工具给审核标注人员,审核标注人员又更高效的标注了很多新的样本,产生正循环。

梯度下降的算法,为什么需要对特征做归一化?

答:不做归一化的话,容易走“之”字型,震荡下行,收敛变慢;有图:为什么一些机器学习模型需要对数据进行归一化?——1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度 - bonelee - 博客园

CD-DNN-HMM:

浅谈语音识别基础 - 简书

HMM所需要的p(o|s)=p(s|o)p(o)/p(s); p(o)相当于和s无关的常量,消掉;"p(s)是某状态的先验概率,在缓解标注不平衡问题中是非常重要的,特别是训练句中包含很长静音段时就更是如此";"比如训练语料包含大量的silience,从而导致silience的后验概率偏大)";  "HMM对于符号发射概率分布的要求是什么?是给定某状态的前提下,产生某输出符号的概率", "与HMM的要求相反,DNN描述的是,给定某输出符号的前提下,该输出符号是由某个状态产生的概率"

"由CD-DNN-HMM最终解码出的字词序列需要同时考虑到声学模型和语言模型的概率,通过权重系数λ去平衡二者之间的关系。语言模型的概率由其它训练方法根据训练语料得出,而声学模型的概率,是所有状态转移概率以及符号发射概率的乘积。"

"训练CD-DNN-HMM的第一步通常就是使用无监督的训练数据训练一个GMM-HMM系统,因为DNN训练标注是由GMM-HMM系统采用维特比算法产生得到的,而且标注的质量会影响DNN系统的性能。(我们知道,训练GMM-HMM采用EM算法,只需给定观察序列,而不需给定标注结果,而DNN需要相应的标注结果)"

上下文:"DNN的输入是一个长为2ω+1(典型的是9到13)帧大小的窗口特征,这样引入了相邻帧"

Softmax回归 VS 多个LR回归:

如果你在开发一个音乐分类的应用,需要对k种类型的音乐进行识别,那么是选择使用 softmax 分类器呢,还是使用 logistic 回归算法建立 k 个独立的二元分类器呢?

这一选择取决于你的类别之间是否互斥,例如,如果你有四个类别的音乐,分别为:古典音乐、乡村音乐、摇滚乐和爵士乐,那么你可以假设每个训练样本只会被打上一个标签(即:一首歌只能属于这四种音乐类型的其中一种),此时你应该使用类别数 k = 4 的softmax回归。(如果在你的数据集中,有的歌曲不属于以上四类的其中任何一类,那么你可以添加一个“其他类”,并将类别数 k 设为5。)

如果你的四个类别如下:人声音乐、舞曲、影视原声、流行歌曲,那么这些类别之间并不是互斥的。例如:一首歌曲可以来源于影视原声,同时也包含人声 。这种情况下,使用4个二分类的 logistic 回归分类器更为合适。这样,对于每个新的音乐作品 ,我们的算法可以分别判断它是否属于各个类别。

现在我们来看一个计算视觉领域的例子,你的任务是将图像分到三个不同类别中。(i) 假设这三个类别分别是:室内场景、户外城区场景、户外荒野场景。你会使用sofmax回归还是 3个logistic 回归分类器呢? (ii) 现在假设这三个类别分别是室内场景、黑白图片、包含人物的图片,你又会选择 softmax 回归还是多个 logistic 回归分类器呢?

在第一个例子中,三个类别是互斥的,因此更适于选择softmax回归分类器 。而在第二个例子中,建立三个独立的 logistic回归分类器更加合适。

(神经网络:multi-class使用1个softmax即1个多分类; multi-lable使用多个sigmoid即多个二分类

LDA&PCA:

降到1维的二分类LDA部分讲的很清楚:数据降维之LDA&PCA_zxhohai的博客-CSDN博客_lda数据降维

线性判别分析LDA详解 - 攻城狮凌风 - 博客园

讲的全:降维算法之LDA原理推导_xiaoweidz9的博客-CSDN博客_lda推导

目标:类间散度越大越好,类内散度越小越好;Max{类间散度/类内散度}

1维二分类,投影后是一个数,分子分母都是方差,让分母=1,等式约束的拉格朗日求极值即可解,结果是w取最大特征值对应的特征向量时极值最优(λ)

多维多分类,投影后是一个向量,分子分母都是协方差矩阵,求行列式相除的最优值,还是求极值问题,最后得到的式子和1维二分类一样的,取最大的几个特征值对应的特征向量即可;

特征向量们不一定正交!降到的维度做多不能超过类别-1;假设数据符合高斯分布的;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值