机器学习
Daverain
怕什么真理无穷,进一寸有进一寸的欢喜。
展开
-
FM学习笔记
前言Factorization Machines 这篇论文于2011年提出,也就是在计算广告领域广为应用的FM。最近仔细学习了FM的算法原理,参考了很多大佬的资料和观点,在此总结。正文FM是个啥?简单的说,FM是一种适合应用在高维稀疏数据场景的、具有线性时间复杂度的监督学习算法,其可以用作分类、回归、排序等类型的任务。对于逻辑回归,我们都不陌生。在使用逻辑回归解决问题时,由于模型比较容易...原创 2019-08-29 16:32:36 · 658 阅读 · 0 评论 -
GBDT与XGBoost的对比
前言前面写过两篇关于GBDT与XGBoost的原理,对GBDT和XGBoost的理解也略微的深入了一些,在此总结一下两者的区别与联系。关于GBDThttps://blog.csdn.net/Daverain/article/details/96702696关于XGBoosthttps://blog.csdn.net/Daverain/article/details/99570424正文...原创 2019-08-14 16:01:10 · 551 阅读 · 0 评论 -
XGBoost原理手记
前言本文主要是从数学形式上梳理了XGBoost的原理,梳理了函数形式、损失函数、当前轮次损失计算、叶子结点分裂等内容。手记参考文献1.Chen, Tianqi, and C. Guestrin. “XGBoost:A Scalable Tree Boosting System.” Acm Sigkdd International Conference on Knowledge Disco...原创 2019-08-14 15:02:44 · 237 阅读 · 0 评论 -
逻辑回归(LR)手记
前言本文主要是从数学形式上梳理了逻辑回归(LR)的原理,推导了逻辑回归的函数形式、损失函数(LogLoss)以及梯度下降的优化过程。手记参考文献https://www.cnblogs.com/pinard/p/6029432.html...原创 2019-08-14 13:02:44 · 194 阅读 · 0 评论 -
在面试中把GBDT讲清楚
前言在面试中,经常会遇到面试官说,你这个项目用到了GBDT,那你能不能介绍一下GBDT的原理?对于很多同学,其实对GBDT很熟悉,但是很难系统性的把它讲清楚,讲完之后自己都觉得很凌乱,面试官也觉得不够满意。本文主要参考了好友Freeman_zxp的博客文章,并结合了一些自己的思考和理解。https://blog.csdn.net/zpalyq110/article/details/79527...原创 2019-07-21 15:16:19 · 3002 阅读 · 0 评论 -
牛顿冷却定律:在用户标签提取上的应用
1.背景在很多推荐业务的场景下,我们需要提取用户的兴趣标签,进而将用户划分,进行内容的推荐。假设我们现在拥有一些用户的行为信息,比如某产品feed上的用户,今天阅读了2个时政类的新闻,昨天阅读了4个美妆类新闻,5天前又读了8篇美食类的新闻,而我们需要给用户打一个label,这个label可以是一个或者多个,我们应该怎么去做呢?我们所拥有的信息为 用户阅读行为的分类、用户在分类下的行为频度以及用...原创 2019-01-09 13:04:51 · 6947 阅读 · 1 评论 -
关键词提取:TF-IDF
TF-IDF是一个精巧而又简单的算法,可以较快的提取一篇文章的关键词。在工业界,像搜索引擎、推荐系统这样的业务,围绕着关键词可以进行许多的尝试。1.什么是TF-IDFTF-IDF全称叫做词频-逆文档频度,现在假设我们有10000篇文章等待我们标记关键词,在这个算法中,我们需要计算的只有词频和逆词频。词频就是指某一个词在某一篇文章中出现的频度,而逆词频可以理解为,拥有这个词的文章的比例。我们...原创 2018-12-23 17:37:04 · 578 阅读 · 0 评论 -
使用spark训练LR模型
最近在工作之余参加了一个CTR预估的比赛,CTR预估是一个成熟又经典的问题,工业界目前使用的主流方案仍然是LR+海量特征。趁着这一次比赛的机会,正好抱着学习的心态尝试着学习用spark集群来训练一下LR。在学校的时候大家训练模型一般都是用python+pandas+numpy+sklearn,这一套工具在单机的环境下非常的简单易学,但是面对海量数据或者高维稀疏矩阵的计算,就显得无能为力。相比之...原创 2018-09-19 19:25:28 · 6117 阅读 · 4 评论 -
SimHash算法原理
一、什么是SimHash SimHash算法是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling》中提到的一种指纹生成算法,被应用在Google搜索引擎网页去重的工作之中。 简单的说,SimHash算法主要的工作就是将文本进行降维,生成一个SimHash值,也就是论文中所提及的“指纹”,通过对不同文本的Si...原创 2019-05-21 20:03:27 · 8769 阅读 · 4 评论 -
反向传播手记
前言反向传播作为深度学习中的一个重要的基础知识,大部分关于它的文章都太过于注重公式的堆砌,本文主要结合一个简单的浅层神经网络,进行一下前向传播和反向传播的计算。一个作为例子的神经网络前向传播以上图的神经网络为例,计算前向传播的计算过程反向传播反向传播的目标是更新整个网络的权值,即w和b其实现的方式为链式求导,具体如下:...原创 2019-09-03 16:58:48 · 261 阅读 · 0 评论