机器学习算法
AIIIIZ
嗯 此人很懒,什么都没有写
展开
-
Bagging/RandomForest和Boosting/GBDT的区别
1. Bagging和Boosting的相同点都是通过将多个弱学习器进行结合,获得比单一学习器显著优越的泛化性能的强学习器组合。关键假设:基学习器的误差相互独立。而现实任务中,个体学习器是为了解决同一问题存在的,显然不相互独立。根据学习器的生成方式,分为两类:1. 个体学习器间存在强依赖关系,必须串行生成的序列化方法,代表为Boosting2. 个体学习器间不存在强依赖关系,可同时...原创 2018-08-03 18:28:53 · 3255 阅读 · 0 评论 -
机器学习中的数据清洗与特征处理综述
https://tech.meituan.com/machinelearning_data_feature_process.html 机器学习中的数据清洗与特征处理综述caohao ·2015-02-10 11:30背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方...转载 2018-09-26 18:20:56 · 479 阅读 · 0 评论 -
随机森林-sklearn
sklearn中随机森林的参数一:sklearn中决策树的参数: 1,criterion: ”gini” or “entropy”(default=”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益),来选择最合适的节点。2,splitter: ”best” or “random”(default=”best”)随机选择属性还是选择不纯度最大的属性,建议用...转载 2018-08-19 14:57:24 · 216 阅读 · 0 评论 -
Adaboost、GB、GBDT、XGBoost
前言:BOOST是一种思想或者说是一种框架,以此为基础的发展的模型有 Adaboost、GB、GBDT、XGBoost等。简要了常用boosting算法的一些区别:AdaBoost、GBDT、XGBoost、LightGBM。 AdaBoost概述原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使...原创 2018-08-13 12:08:59 · 1137 阅读 · 0 评论 -
GBDT算法原理以及实例理解
https://blog.csdn.net/zpalyq110/article/details/79527653 参考资料李航 《统计学习方法》 https://www.cnblogs.com/pinard/p/6140514.html https://www.cnblogs.com/ModifyRong/p/7744987.html https://www.jianshu...转载 2018-08-11 17:56:30 · 600 阅读 · 0 评论 -
GBDT(实际上是二阶导形式的XGBOOST)详解
https://www.zybuluo.com/yxd/note/611571#gbdt%E7%AE%97%E6%B3%95 前半部分内容如下:梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的机器学习技术[1],属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范...转载 2018-08-11 17:50:15 · 1485 阅读 · 0 评论 -
XGBOOST详解
转载:http://dataunion.org/15787.html作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。注解:truth4sex 编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体标注)。备注:图片可点击查看清...转载 2018-08-11 14:49:10 · 1662 阅读 · 0 评论 -
线性回归中,为什么梯度下降能找到使得损失函数取极小值时相应的参数?函数的凹凸性与拐点、凸函数、梯度下降
为什么梯度下降能找到函数的极值及相应的参数? 本文按机器学习对凸函数的定义(来源于国外的说法)形如“U"的为凸函数,形如“^”的为凹函数。 根据微积分知识:如果一个函数f(x)为凸函数(国内高等数学的凹函数),即其二阶导数>0,那么在它的定义域内一定有且只有一个极小值; 一个函数在其某一点的梯度方向上增加的最快,在其负梯度方向上减小的最快; 梯度下降算法是一种局部优化...原创 2018-08-03 19:57:18 · 3178 阅读 · 0 评论 -
xgboost: predict 和 predict_proba 分类器正确率计算的讨论
sklearn接口的xgboost 分类器:xgboost.XGBClaaifier()xgboost.fit(x,y)1. xgboost.predict(test_x) 2. xgboost.predict_proba(test_x)3. xgboost.score(test_x,y)讨论:结果1“可能”不准,因为predict默认采用0.5做阈值;另外,scor...原创 2018-10-12 11:59:00 · 23914 阅读 · 6 评论