2018年04月_guochampion

转载 GBDT、XGBoost、LightGBM

本文主要简要的比较了常用的boosting算法的一些区别，从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍，一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候，为每一个样本赋上一个权重值，初始的时候，大家都是一样重要的。在每一步训练中得到的模型，会使得数据点的估计有对有错，我们就在每一步...

2018-04-25 15:24:51 692

原创梯度下降与GBDT

首先明确一点，gbdt 无论用于分类还是回归一直都是使用的CART 回归树。不会因为我们所选择的任务是分类任务就选用分类树，这里面的核心是因为gbdt 每轮的训练是在上一轮的训练的残差基础之上进行训练的。这里的残差就是当前模型的负梯度值。这个要求每轮迭代的时候，弱分类器的输出的结果相减是有意义的。残差相减是有意义的。如果选用的弱分类器是分类树，类别相减是没有意义的。...

2018-04-18 16:50:51 2343

转载条件随机场

理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的，可能写文章的人都是大牛，不屑于举例子吧。于是乎，我翻译了这篇文章。希望对其他伙伴有所帮助。原文在这里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/]想直接看英文的朋友可以直接点进去了。我在翻译时并没有...

2018-04-18 16:48:44 174

转载提升树和梯度提升树的理解

GBDT是机器学习面试中的常客，但是，要准确地说出它的原理却并不容易，除了掌握DT基本知识外，还要掌握加法模型、前向分步算法、梯度提升思想，本文是对这些知识点的一个简单总结，请各路大神指正。为了提高写作效率，文中公式都是手写，美观不足，但清晰准确是没问题的。一、从加法模型说开去首先，我们需要具备一些基本的机器学习知识，这里简单列出，以作为下面讨论的基础：1、机器学习的大致流程就是确定模型集H、定义...

2018-04-18 16:46:19 4347

转载特征选择方法

1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。 (2) 为什么要做特征选择在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能...

2018-04-17 16:21:07 4117

转载机器学习中的优化方法网格搜素

网格搜索法是指定参数值的一种穷举搜索方法，通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。即，将各个参数可能的取值进行排列组合，列出所有可能的组合结果生成“网格”。然后将各组合用于SVM等机器学习方法训练，并使用交叉验证对表现进行评估。在拟合函数尝试了所有的参数组合后，返回一个合适的分类器，自动调整至最佳参数组合，可以通过clf.best_params_获得参数值。交叉验证与...

2018-04-17 16:17:55 1734

转载 GBDT的原理

DT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Regression Tree）, MART(Multiple Additive Regression Tree)，其实都是指的同一种算法，本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用，假如要选择3个最重...

2018-04-17 16:13:10 349

转载基于Python的数据可视化 matplotlib seaborn pandas

# 首先载入pandas import pandas as pd # 我们将载入seaborn,但是因为载入时会有警告出现，因此先载入warnings，忽略警告 import warnings warnings.filterwarnings("ignore") import seaborn as sns import matplotlib.pyplot as plt sns.s...

2018-04-16 22:42:56 376

原创移动推荐算法中的RF训练模型过程

首先是函数：作用：generation and splitting to training set & valid setdef valid_train_set_construct(valid_ratio = 0.5, valid_sub_ratio = 0.5, train_np_ratio = 1, train_sub_ratio = 0.5): # generation of...

2018-04-16 19:25:37 1894

转载 GBDT和xgboost面试

比赛怎么做的（先说解决的问题，属于回归还是二分类问题，KS曲线是什么含义，能优化吗（用AUC代替））KS值：用真正率和假正率的累计值分别做为纵坐标就得到两个曲线，这就是K-S曲线。GBDT与XGBoost的区别（知乎wepon大神：https://www.zhihu.com/question/41354392）传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboos...

2018-04-16 17:08:15 1694

转载随机森林的训练使用

关于随机森林特有的参数：n_estimators=10：决策树的个数，越多越好，但是性能就会越差，至少100左右（具体数字忘记从哪里来的了）可以达到可接受的性能和误差率。bootstrap=True：是否有放回的采样。oob_score=False： oob（out of band，带外）数据，即：在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练，我们知道可以用cro...

2018-04-16 16:44:13 9794

guochampion的博客