bitcarmanlee的博客

米厂的小码农,专注数据与算法,qq群:397173819

sklearn 中GBDT的损失函数

1.分类模型分类模型的损失函数包括有”deviance”和指数损失函数”exponential”,默认为对数损失函数。 相关参考链接: 1.损失函数 http://www.csuldw.com/2016/03/26/2016-03-26-loss-function/ 2.Adaboost与指...

2017-09-09 21:33:03

阅读数:972

评论数:0

GBDT实战

1.GBDT介绍GBDT(Gradient Boosting Decision Tree) 或者称为MART(Multiple Additive Regression Tree),也可叫GBRT(Gradient Boosting Regression Tree),是一种基于回归决策树的Boost...

2017-09-05 21:56:18

阅读数:1269

评论数:0

机器学习算法调优

机器学习算法众多,各种算法又涉及较多参数,本文将简要介绍RF,GBDT等算法的调优经验与步骤。1. BP调优事项 1.BP对feature scaling很敏感,要先scale data。 2.经验来说,L-BFGS在小数据上收敛更快效果更好;Adam在大数据上表现很好;SGD在参数learn...

2017-08-30 22:32:07

阅读数:440

评论数:0

核函数(Kernel Function)与SVM

1.核函数把低维空间映射到高维空间下面这张图位于第一、二象限内。我们关注红色的门,以及“北京四合院”这几个字下面的紫色的字母。我们把红色的门上的点看成是“+”数据,紫色字母上的点看成是“-”数据,它们的横、纵坐标是两个特征。显然,在这个二维空间内,“+”“-”两类数据不是线性可分的。我们现在考虑核...

2017-08-26 18:02:17

阅读数:5858

评论数:0

从内容/用户画像到如何做算法研发

原文链接:http://www.jianshu.com/p/d59c3e037cb7?spm=5176.100239.blogcont60117.8.Bd8tGq中午和一前同事一起用餐,发现还是有很多碰撞点的。交流了很多正在做的事情, 对方也提供了非常多的思想值得自己很好的思考。先是和他聊了下我...

2017-08-25 15:10:20

阅读数:1150

评论数:0

隐马尔科夫模型(HMM)讲解

形马尔可夫模型,英文是 Hidden Markov Models,所以以下就简称 HMM。 既是马尔可夫模型,就一定存在马尔可夫链,该马尔可夫链服从马尔可夫性质:即无记忆性。也就是说,这一时刻的状态,受且只受前一时刻的影响,而不受更往前时刻的状态的影响。在这里我们仍然使用非常简单的天气模型来做说...

2017-08-22 22:19:11

阅读数:765

评论数:0

流动的推荐系统

原文链接地址:http://geek.csdn.net/news/detail/125433我们经常谈论的推荐系统(Recommender System),从形式上看是比较“静态”的推荐,通常位于网页主要信息的周边,比如电商网站的“看了又看”、“买了又买”。这种推荐系统在大多数场景下无法独立撑起一...

2017-05-17 17:39:24

阅读数:561

评论数:0

机器学习中模型优化不得不思考的几个问题

原文链接:http://tech.meituan.com/machine-learning-model-optimization.html本文根据美团点评算法工程师胡淏4月22日在“携程技术沙龙”上的分享整理而成。文字综合了“携程技术中心”微信公众号的版本和胡淏本人在微博上发表的文章,并有少量编辑...

2017-05-12 18:55:32

阅读数:606

评论数:0

异常点/离群点检测算法——LOF

原文链接地址:http://blog.csdn.net/wangyibo0201/article/details/51705966在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据。异常检测也是数据挖掘的一个方向,用于反作弊、伪基站、金融诈骗等领域。 异常...

2017-03-10 15:50:27

阅读数:3995

评论数:0

最简单的推荐系统实践

参考网络上的部分资料,做了个最简单的推荐系统的demo实例。 我们将使用MovieLens数据集,它是在实现和测试推荐引擎时所使用的最常见的数据集之一,包含来自943个用户以及精选的1682部电影的评分。 数据的下载地址:http://grouplens.org/datasets/moviel...

2016-09-27 21:13:30

阅读数:4145

评论数:0

漫谈Clustering:高斯混合模型(GMM)

上一次我们谈到了用 k-means 进行聚类的方法,这次我们来说一下另一个很流行的算法:Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在 clustering 上之外,还经常被用于 ...

2016-08-15 11:34:56

阅读数:2790

评论数:0

从泰勒展开到牛顿迭代

1.泰勒公式(Taylor’s Formula)对于一些复杂的函数,为了方便研究与分析,我们往往希望用一些简单的函数来近似表达。其实这也符合人们对事物的认知规律与认知曲线:有浅入深,由易到难,前面研究的比较容易的部分往往是后面推广结论的特例。在比较简单的函数中,多项式算是最简单的一种了。因为多项表...

2016-08-12 21:43:23

阅读数:3250

评论数:0

FM算法详解

1.FM背景在计算广告中,CTR预估(click-through rate)是非常重要的一个环节,因为DSP后面的出价要依赖于CTR预估的结果。在前面的相关博文中,我们已经提到了CTR中相关特征工程的做法。对于特征组合来说,业界现在通用的做法主要有两大类:FM系列与Tree系列。今天,我们就来讲讲...

2016-08-07 18:02:06

阅读数:27665

评论数:4

LDA入门浅谈

1.什么是主题模型在我的博客上,有篇文章《基于双数组Trie树的Aho Corasick自动机极速多模式匹配》被归入算法目录,算法即为该文章的主题。而该文章因为涉及到中文分词,又被我归入了分词目录。所以该文章的主题并不单一,具体来说文中80%在讲算法,20%稍微讲了下在分词中的应用。传统的文本分类...

2016-08-03 11:38:09

阅读数:5966

评论数:0

kmeans算法详解与spark实战

1.标准kmeans算法kmeans算法是实际中最常用的聚类算法,没有之一。kmeans算法的原理简单,实现起来不是很复杂,实际中使用的效果一般也不错,所以深受广大人民群众的喜爱。 kmeans算法的原理介绍方面的paper多如牛毛,而且理解起来确实也不是很复杂,这里使用wiki上的版本: 已...

2016-08-02 10:59:01

阅读数:10783

评论数:1

NP-Hard问题浅谈

看相关算法的paper的时候,经常会出现NP-Hard这个词。本博主也不是纯数学系出身,对于这么高深的问题自然没有特别深入独到的理解。但是本博主的习惯就是看到一个东西老在眼前晃来晃去但自己还不是很明白,就有强迫症一定要搞明白这到底是个什么玩意。so,咱们就来看看这个NP-Hard问题,怎么用最简单...

2016-07-17 23:26:44

阅读数:15368

评论数:2

机器学习中的范数规则化之(一)L0、L1与L2范数

1.监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。多么简约的哲学啊!因为...

2016-07-17 13:47:33

阅读数:1457

评论数:0

logistic回归详解(三):梯度下降训练方法

在http://blog.csdn.net/bitcarmanlee/article/details/51165444中,我们已经对logistic回归的cost function做了完整的推导。如果是单个样本,其损失函数为: cost(hθ(x),y)=−yilog(hθ(x))−(1−yi)...

2016-05-22 08:14:49

阅读数:7511

评论数:2

logistic回归详解(二):损失函数(cost function)详解

有监督学习机器学习分为有监督学习,无监督学习,半监督学习,强化学习。对于逻辑回归来说,就是一种典型的有监督学习。 既然是有监督学习,训练集自然可以用如下方式表述: {(x1,y1),(x2,y2),⋯,(xm,ym)}\{(x^1,y^1),(x^2,y^2),\cdots,(x^m,y^m)...

2016-04-15 23:08:51

阅读数:69097

评论数:9

logistic回归详解一:为什么要使用logistic函数

从线性分类器谈起  给定一些数据集合,他们分别属于两个不同的类别。例如对于广告数据来说,是典型的二分类问题,一般将被点击的数据称为正样本,没被点击的数据称为负样本。现在我们要找到一个线性分类器,将这些数据分为两类(当然实际情况中,广告数据特别复杂,不可能用一个线性分类器区分)。用X表示样本数据,Y...

2016-04-14 19:55:27

阅读数:21742

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭