- 博客(12)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
转载 最大熵与逻辑回归的等价性
一:前言update:2015/11/9获得了一些新的理解,指数簇分布的最大熵等价于其指数形式的最大似然界。二项式的最大熵解等价于二项式指数形式(sigmoid)的最大似然,多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然,因此为什么用sigmoid函数,那是因为指数簇分布最大熵的特性的必然性。假设分布求解最大熵,引入拉格朗日函数,求偏导数等于0,直接求出就是sigmoid函...
2018-06-28 19:29:30 1447
转载 常见编程命名缩写
命名缩写通用缩写翻译控件缩写翻译addressaddr地址calendarcdr日历applicationapp应用程序messageDialogmsgdlg消息框asynchronizationasyn异步drawerdrw抽屉averageavg平均数buttonGroupbtngrp按钮分组bitmapbmp位图checkBoxchk复选框bufferbuf缓冲区containercntr容...
2018-06-21 16:33:50 2450
转载 特征分析在广告点击率预估上为什么没那么重要
首先需要澄清一点,这里的特征分析主要是指的传统上数据挖掘里面讲的一些特征关系研究比如共线性问题。 另外,这里的经验特指用LR来做点击率预估。大家学完数据挖掘/机器学习的课程的时候,一定会有个体会, 特征不可以乱加,乱加特征很可能会导致更坏的效果。所以,在没有任何人的指导下,仅仅是凭借着前人的一些资料, 我根据之前看的书本,习惯性的陷入了特征选择这个坑中,我会想效果不好的原因会不会是因为加入了特征,...
2018-06-15 16:02:48 1466 1
原创 频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP
作者:夏飞Google | 软件工程师量子位 已获授权编辑发布转载请联系原作者本文作者夏飞,清华大学计算机软件学士,卡内基梅隆大学人工智能硕士,现为谷歌软件工程师。在这篇文章中,他探讨了机器学习中的MLE和MAP两大学派的争论。频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)贝叶斯学派 - Bayesian - Maxi...
2018-06-13 11:22:01 1210
转载 频率视角下的机器学习
在“人工智能基础课”中我曾提到,“概率”(probability)这个基本概念存在着两种解读方式,它们分别对应着概率的频率学派(Frequentist)和贝叶斯学派(Bayesian)。而解读方式上的差异也延伸到了以概率为基础的其他学科,尤其是机器学习之中。根据机器学习领域的元老汤姆·米切尔(Tom M. Mitchell)的定义,机器学习(machine learning)是一门研究通过计算的手...
2018-06-13 10:35:43 1279
转载 AUC计算方法总结
一、roc曲线1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity)纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率...
2018-06-13 10:32:11 1840
转载 AUC上升CTR一定上升么
记得几年前,百度从谷歌挖来了一个非常牛逼的工程师,这位工程师带来了很多机器学习的概念,实在是让自己这种土包子开了眼界,在一次会议上,这位工程师在解释auc和线上ctr的关系时,说 ”我做了这么多年机器学习,还从来没见过算法A在auc上胜过算法B,但是线上表现A比B差。” 必须备注一点,自己当时连auc都没搞清楚的小喽啰,也许记忆会有偏差,所以原话也许有偏差。事实上,在点击率预估这项工程的开展初期,...
2018-06-11 15:52:58 5944 2
转载 基于大规模机器学习模型的推荐系统
推荐系统的本质是什么?比如说我们看到手机淘宝首页,往下一拉,就能看到各种各样推荐的商品;比如说百度,它会给我们推荐广告,在某种程度上他的工作方式也很像推荐系统;再比如说今日头条,今日头条从数十万的新闻中选出会被我们看到的数十个新闻,这也是推荐系统。尽管我们在生活中会已经见过非常多的推荐系统,但是在用机器学习搭建推荐系统之前,我们还是应当先思考一下,推荐系统要解决的到底是个什么样的问题?推荐系统在本...
2018-06-11 15:52:27 3486 2
转载 git merge 和 git rebase 小结
git merge是用来合并两个分支的。git merge b # 将b分支合并到当前分支同样 git rebase b,也是把 b分支合并到当前分支-----------------------------------他们的 原理 如下:假设你现在基于远程分支"origin",创建一个叫"mywork"的分支。$ git checkout -b mywork origin假设远程分支"...
2018-06-06 17:13:08 817
转载 Spark面对OOM问题的解决方法及优化总结
转载请保持完整性并注明来源链接: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuff...
2018-06-05 22:12:41 1111
转载 linux中给 alias 添加命令行参数
定义 alias 时,有用命令行参数的需求。但通过查证文档的结果是,alias 根本就不支持传递命令行参数。不过,我们可以变通的解决这个问题,即定义函数。 代码如下复制代码alias test='test() { echo $1; };test'[hadoop@NN069186 dev]$ source ~/.bashrc [hadoop@NN069186 dev]$ test abc def g...
2018-06-01 17:45:35 11082
转载 Spark cache的用法及其误区分析
Spark cache的用法及其误区:一、Cache的用法注意点:(1)cache之后一定不能立即有其它算子,不能直接去接算子。因为在实际工作的时候,cache后有算子的话,它每次都会重新触发这个计算过程。(2)cache不是一个action,运行它的时候没有执行一个作业。(3)cache缓存如何让它失效:unpersist,它是立即执行的。persist是lazy级别的(没有计算),unpers...
2018-06-01 14:35:55 2277
ML step by step
2017-09-21
python 正则表达式 findall和search的问题
2015-09-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人