机器学习
文章平均质量分 93
smartcat2010
这个作者很懒,什么都没留下…
展开
-
机器学习课程笔记
随机梯度下降(SGD)的原理:对L(w)进行一阶泰勒展开,w[t]是当前自变量值:L(w[t]) + L(w[t])' * (w[t+1]-w[t])如何让右边的最小化?答:L(w[t])是常量定值,L(w[t])是向量(也是常量定值),w[t+1]-w[t]是向量,两个向量相乘如何最小化:当两个向量方向相反时,乘积最小化;因此"w[t+1]-w[t]=-L(w[t])*学习率" 时,乘积最小化,等价于L(w)近似最小化;牛顿法:对L(w)做二阶泰勒展开,有w的二次项,可以直接求闭.原创 2020-07-31 20:16:23 · 174 阅读 · 1 评论 -
规则自动提取
规则提取介绍转载 2020-03-08 19:49:34 · 905 阅读 · 0 评论 -
LightGBM
1. 直方图:数据特征存储减少(1Byte表示256个桶), 扫描速度加快(Data个-->K个桶); 误差也许是好事儿,降低过拟合;避免了对所有数据所有特征的预排序;2.Leaf-wise的叶子生长策略:Layer-wise会浪费计算资源,有些节点不必分裂;这里限制最大深度限制最小样本数限制最小增益;3. 父节点直方图-左儿子直方图==>右儿子直方图4.直接支持类别特...转载 2019-12-26 18:52:06 · 595 阅读 · 0 评论 -
xgBoost的优缺点
Boosting是一种常用的统计学习方法,在训练过程中,通过改变训练样本的权重,学习多个分类器,最终获得最优分类器。在每一轮训练结束之后,降低被正确分类的训练样本权重,增大分类错误的样本权重,多次训练之后,一些被错误分类的训练样本会获得更多关注,而正确的训练样本权重趋近于0,得到多个简单的分类器,通过对这些分类器进行组合,得到一个最终模型。xgBoosting在传统Boosting的基础上,利...转载 2019-11-23 22:25:02 · 9376 阅读 · 0 评论 -
搜索排序评价指标
信息检索中常用的评价指标:MAP,NDCG,ERR,F-measure一. NDCG:Normalized Discounted Cumulative Gain; rel是相关度(Gain);i是排名位置(Discounted), 加起来就是CumulativeN是Normalized;(Query是同一个p,但是分子(当前列表)和分母(最优列表)的内容可能不同)...原创 2019-11-23 20:55:49 · 1351 阅读 · 0 评论 -
语音识别
CD-DNN-HMM:https://www.jianshu.com/p/a0e01b682e8aHMM所需要的p(o|s)=p(s|o)p(o)/p(s); p(o)相当于和s无关的常量,消掉;"p(s)是某状态的先验概率,在缓解标注不平衡问题中是非常重要的,特别是训练句中包含很长静音段时就更是如此";"比如训练语料包含大量的silience,从而导致silience的后验概率偏大)";...转载 2019-02-28 16:39:36 · 310 阅读 · 0 评论 -
Word2Vec/WordEmbedding笔记
CBOW: Continous Bag Of Words; Context词预测中心词;Skip-gram:中心词预测Context词;最原始的训练网络是Context词的WordEmbedding首尾相连,输入浅层神经网络,输出层是word个数个节点的softmax;每次context词们做输入,中心词做softmax输出的label;缺点:最后一层softmax节点数太多(等于词库大...原创 2018-12-05 11:57:27 · 613 阅读 · 0 评论 -
FTRL&FM
1. Feature Retire: 防止随着训练持续进行,模型越来越大;将较长时间不修改的feature,从模型中删去;2. Dump模型,w,q,z必须Dump出来,用来断点恢复;w单独dump出来,用来给Prediction-Cluster进行预测;3.在线最优化求解 冯扬 FTRL最优化问题的公式里,包含3个部分:迎合过往梯度,正则化增加稀疏性,别离以往的W偏离过远;...原创 2016-11-16 15:06:38 · 3393 阅读 · 0 评论 -
泊松分布推导
https://blog.csdn.net/u013346007/article/details/53044417转载 2018-07-02 10:37:30 · 6280 阅读 · 0 评论 -
LDA通俗解释
LDA整体流程先定义一些字母的含义:文档集合D,topic集合T D中每个文档d看作一个单词序列< w1,w2,...,wn >,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响) D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)LDA以文档集合D作为输入(会有切词,去停用词,取词干等...转载 2017-11-14 23:53:41 · 2696 阅读 · 0 评论 -
LDA主题模型
在解释LDA之前需要先介绍些前置知识,然后一点点说明LDA,所以,如果某个前置知识你不明白,那个人建议你不要跳过,否则....否则随你喽~PS:下面章节的关系是:LDA的DA是“Dirichleet分布”的缩写Dirichleet分布是Beta分布推广到多维的情况Beta分布和Γ函数有关系,且它是二项分布的共轭先验分布Γ函数其实就是阶乘在实数上的推广转载 2017-11-14 23:38:11 · 737 阅读 · 0 评论 -
FTRL算法性能优化
原算法(Worker端):1. 对1个mini-batch, 得到每个sample的非0特征值的feature-id,排序(ps-lite要求Key必须有序),去重2. 以这组feature-id为Key, 从Server上Pull,得到对应的weights3. 对每个sample[i], 对其所有非0特征值的feature-id对应的weight, 进行加和,得到sum_w[i]原创 2016-12-27 20:15:13 · 1940 阅读 · 0 评论 -
机器学习一些基本概念
- 交叉熵损失函数-ylny'-(1-y)ln(1-y') (y是label, y'是预测为正例的概率)直观理解:正例时,y'越大越好,y'和lny'单调性一致,-ylny'越小越好;负例时,后半部分起作用,1-y'是预测为负例的概率,该概率越大越好,因此-(1-y)ln(1-y')越小越好;一句话:正例时,预测为正的概率越大越好;负例时,预测为负的概率越大越好;...原创 2017-06-29 21:15:00 · 416 阅读 · 0 评论 -
NLP知识笔记
标签/关键词提取:业界常用抽取文本关键词的无监督学习方法主要是TF-IDF,TextRank,左右信息熵。TextRank算法主要是基于某一窗口内的词共现关系,构造无向图关系,通过Ranking方法计算词的权重,被其他词关联Ranking权重越高的词就是越关键的核心词。算法详述见参考文献[4], 在Fundan NLP, jieba分词等工具中有该算法的实现。 左右信息熵算法主要是计算转载 2017-07-06 11:41:35 · 349 阅读 · 0 评论 -
ML知识笔记
xgboost,GBDT在广告中的应用:把用户和广告提出特征来,做组合,例如:男性&IT类, 统计这个类型下的点击率;来一个新样本,对应在这个特征上的点击率,作为一个特征值; 所有特征值就是GBDT输入特征向量;- 自然语言处理第一番之文本分类器CNN, RNN, LSTM 相关论文《Convolutional Neural Networks for Sent...转载 2016-12-08 17:29:24 · 522 阅读 · 0 评论 -
特征工程知识笔记
1. recent click; recent skip 加doc-id; 加类别等特征; 分成最近1次session; 1小时;6小时;24小时;>24小时;多个时间段内统计特征出现次数; 按照该特征出现次数,对其进行归一化,例如归一化到0~1浮点数区间内; 或者按特征出现次数,进行bining 2. 特征的不同层次,不同粒度, 都加进去...转载 2017-07-19 18:11:31 · 295 阅读 · 0 评论 -
LinkedIn知识图谱
你知道LinkedIn工作推荐、搜索排背后的知识图谱是如何构建的吗原文链接:http://www.cstor.cn/textdetail_11117.html我们在LinkedIn公司内部广泛应用了机器学习技术来优化我们的产品:比如搜索结果排名、广告、新闻种子的更新,以及推荐人、工作机会、文章和学习机会等。这套技术栈的一个重要部分就是知识图谱,它为机器学习模转载 2017-07-29 00:40:58 · 753 阅读 · 0 评论 -
遗传算法GA
原文链接:http://blog.jobbole.com/110913/遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识作为遗传算法生物背景的介绍,下面内容了解即可: 种群(P转载 2017-11-08 22:59:20 · 345 阅读 · 0 评论 -
遗传算法的TSP例子
原文链接:http://blog.chinaunix.net/uid-27105712-id-3886077.html 遗传算法(Genetic Algorithm)又叫基因进化算法,或进化算法。属于启发式搜索算法一种,这个算法比较有趣,并且弄明白后很简单,写个100-200行代码就可以实现。在某些场合下简单有效。本文就花一些篇幅,尽量白话方式讲解一下。 首转载 2017-11-08 23:45:24 · 3688 阅读 · 0 评论 -
BFS/DFS引出A*算法
原文链接:http://blog.csdn.net/zgwangbo/article/details/52078338想必大家都玩儿过对战类的游戏,老王读书那会儿,中午吃完饭就会跟几个好哥们儿一起来两局红警。后来升级了,玩儿星际(是不是暴露年龄了,哈哈~~)。 玩儿的时候,就会发现这里面的兵(为了方便描述,把坦克、飞艇、矿车、龙骑等统称为兵),你只要指定转载 2017-11-11 13:41:50 · 1526 阅读 · 1 评论 -
概念:Roc, AUC, Precision, Recall
Given a randomly chosen observation x belonging to class 1, and a randomly chosen observation x ′ belonging to class 0, the AUC is the probability that the evaluated classification algorithm will assi...转载 2016-12-29 16:49:44 · 2126 阅读 · 0 评论