学习者
guochampion
这个作者很懒,什么都没留下…
展开
-
随机森林的训练使用
关于随机森林特有的参数:n_estimators=10: 决策树的个数,越多越好,但是性能就会越差,至少100左右(具体数字忘记从哪里来的了)可以达到可接受的性能和误差率。bootstrap=True: 是否有放回的采样。oob_score=False: oob(out of band,带外)数据,即:在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练,我们知道可以用cro...转载 2018-04-16 16:44:13 · 9796 阅读 · 0 评论 -
GBDT和xgboost面试
比赛怎么做的(先说解决的问题,属于回归还是二分类问题,KS曲线是什么含义,能优化吗(用AUC代替))KS值:用真正率和假正率的累计值分别做为纵坐标就得到两个曲线,这就是K-S曲线。GBDT与XGBoost的区别(知乎wepon大神:https://www.zhihu.com/question/41354392)传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboos...转载 2018-04-16 17:08:15 · 1694 阅读 · 0 评论 -
移动推荐算法中的RF训练模型过程
首先是函数 :作用:generation and splitting to training set & valid setdef valid_train_set_construct(valid_ratio = 0.5, valid_sub_ratio = 0.5, train_np_ratio = 1, train_sub_ratio = 0.5): # generation of...原创 2018-04-16 19:25:37 · 1894 阅读 · 0 评论 -
基于Python的数据可视化 matplotlib seaborn pandas
# 首先载入pandas import pandas as pd # 我们将载入seaborn,但是因为载入时会有警告出现,因此先载入warnings,忽略警告 import warnings warnings.filterwarnings("ignore") import seaborn as sns import matplotlib.pyplot as plt sns.s...转载 2018-04-16 22:42:56 · 376 阅读 · 0 评论 -
GBDT的原理
DT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART(Multiple Additive Regression Tree),其实都是指的同一种算法,本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用,假如要选择3个最重...转载 2018-04-17 16:13:10 · 349 阅读 · 0 评论 -
GBDT、XGBoost、LightGBM
本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每一步...转载 2018-04-25 15:24:51 · 692 阅读 · 0 评论 -
机器学习眼中的《人民的名义》
一、背景 最近热播的反腐神剧“人民的名义”掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用。笔者在平日追剧之余,也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析,希望从数据的角度得到一些输入。本文使用阿里云机器学习PAI,主要针对以下几个方面进行了实验:分词以及词频统计每一章的关键词提取每一章的文本摘要每一章文本...转载 2018-05-26 21:04:47 · 559 阅读 · 0 评论 -
正则化方法:L1和L2 regularization、数据集扩增、dropout
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是...转载 2018-08-13 01:34:55 · 165 阅读 · 0 评论 -
约束优化方法之拉格朗日乘子法与KKT条件——转载
约束优化方法之拉格朗日乘子法与KKT条件引言本篇文章将详解带有约束条件的最优化问题,约束条件分为等式约束与不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转化为在满足 KKT 约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解,只有在凸优化的情况下,才能保证得到的是最优解,所以本文称拉格朗日乘子法得到的为可行解,其...转载 2018-09-18 13:17:05 · 628 阅读 · 0 评论