新型梯度提升决策树GBDT-SPARSE(谷歌微软FaceBook加州大学联合提出)

Gradient Boosted Decision Trees for High Dimensional Sparse Output

Si Si, Huan Zhang, S. Sathiya Keerthi, Dhruv Mahajan, Inderjit S. Dhillon, Cho-Jui Hsieh

Google Research, University of California at Davis, Microsoft, Facebook, University of Texas at Austin

ICML 2017

http://proceedings.mlr.press/v70/si17a/si17a.pdf

这篇文章主要研究GBDT如何应对输出空间是高维且稀疏的情形。比如,在多标签分类中,输出空间是L维的向量,其中每个元素都是0/1取值的,这里的L是标签的个数,L可以取值很大,在现实中,L可能多至百万甚至更多。

这种情况下,普通的GBDT很容易就会内存溢出或者接近永远运行下去。为了解决这种问题,这篇文章提出了一种GBDT的变体,GBDT-SPARSE,该变体的特点在于L0正则。

这篇文章给出了训练这种稀疏GBDT的细节,其中包含了如何确定分割节点,如何计算稀疏残差,如何以次线性的时间复杂度进行预测。

作者们将这种算法用于具有非常多标签的分类问题,结果显示,本文提出的GBDT-SPARSE在模型容量和预测耗时等方面相对现有方法具有大幅度提升,同时能够得到跟现有方法接近的效果。

小知识点1: GBDT构建树的过程中每棵回归树都是拟合之前的树所得残差。

这篇文章讨论的焦点有个前提,每个样本只有少量标签,基于此前提,可以利用L0正则约束来迫使每棵树的叶子节点只有少量节点非零。容易看出,对于每个样本,需要计算的梯度次数跟树的个数线性相关,跟非零叶节点的个数线性相关。

本文所提算法不仅速度快,而且效果可观,另外还可以高效并行,多核时能够近似线性加速。跟FASTXML在速度和容量以及准确率等方面对比如下。

640?wx_fmt=png

在bagging、boosting、random forest这些方法中,boosting在减小模型容量和缩短预测时间方面比较有效,这是因为训练下一个模型利用了之前模型的输出。

在GBDT中,每棵树都是对残差进行训练,这里的残差是指相对之前树所得损失函数的负梯度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
为给定的专利提供专利权利要求树。 显示当前页面上列出的所有专利声明的专利声明树。在Chrome浏览器中,选择地址栏右侧的红色和黑色“ WM”图标,以查看专利声明树。目前在以下网站(至少部分)上受支持:-USPTO-Google专利(.com,.de,.fr,.co.uk,.se,.ca,co.in,co.nz当前-发送给我要求其他国家/地区)。当前,正在处理美国,EP,WO和CA专利文件。将来的更新还将处理来自其他司法管辖区(例如DE)的文档 -FreePatentsOnline-Espacenet我们在Wolf Mountain IP,LLC竭尽所能正确呈现索赔树,但由于所支持的网站是动态的并且经常更改,因此我们不保证结果。因此,请让我们知道您遇到的任何问题。该扩展按“原样”提供,没有任何明示或暗示的保证。只要启用了JavaScript,该扩展程序就应该适用于在初始安装扩展程序后加载的网页。请注意,该扩展程序未收集任何信息-所有处理均在您的本地浏览器中完成。当前不完全支持多个从属声明。此外,目前仅完全支持英语的声明。提供了一些基本的法语和德语处理方式 Google Patents页面上的已访问链接将突出显示,以方便审阅项目 ~~~版本2.43-在Google专利中增加了对优先权日期的处理-在Google Patents版本2.42中增加了对加拿大文件的支持-为EP文件增加了欧洲专利注册链接-为EP文件增加了EPO联邦注册链接版本2.41-从优先权日期中删除了Google专利的标头因Google专利的更改而有所变化 -改进了专利诉讼搜索链接 -删除了捐款(捐赠)按钮。版本2.40-在Google Patents页面上为访问的链接添加了突出显示 -扩展未使用的禁用权限 -增加了对已取消的索赔的处理 -改进了Espacenet页面的国家/地区代码处理 -在Espacenet页面上的美国授权前出版物标识符上添加了“ 0”,以提供其他专利网站使用的格式。版本2.39-添加了到“全球档案”的链接(在USPTO上) -添加了指向FreePatentsOnline PDF的链接 -更正了8位专利号的USPTO转让链接 -提供了一个捐款(捐赠)按钮,为持续发展提供资金。版本2.38-为计算机可读介质声明的各种措词选项添加了处理功能。版本2.37-更新了较新的Google Patents页面的应用程序标识符提取 -增加了对8位美国专利号的处理 -修改后的Google Patents相关链接。版本2.36-改进的页面更新处理版本2.35-修改的Google Patents链接版本2.34-添加的Espacenet声明处理-改进的德语声明文本解析版本2.33-添加的EP专利链接,例如Espacenet,Google Patents和FreePatentsOnline-固定声明Google专利中的EP专利摘录(基于Google专利的更新)-添加了其他一些较小的改进版本2.32-添加了对印度和新西兰站点的Google Patents版本2.31的支持-更正了已取消权利要求的处理。版本2.30-对一个特定用例的声明类型处理进行了略微调整。版本2.29-更新为使用最新的USPTO转让URL语法-更新为使用最新的USPTO维护费URL语法-固定的EP注册链接功能-纠正了patents.google的应用程序ID提取 com版本2.28-为patents.google.com搜索实用程序的搜索结果树更新提供了处理-为加拿大和瑞典网站提供了Google专利支持-添加了对缺少“ www”子域的支持-添加了对小写国家/地区代码的支持Google Patents URLs版本2.27-解决了某些情况下专利号的问题版本2.26-删除了某些链接的种类代码-链接到新的Google Patents(patents.google.com)-修改了针对新语法2.24、2.25的新的Google Patents处理-添加了对新的Google Patents(patents.google.com)版本2.23的支持-基于新的USPTO网页版本2.22修改了USPTO分配的URL语法-添加了基本要求对Google专利版本2.21中的EP专利文件提供德语和法语支持-在Google专利版本2.20中增加了对EP和WO专利文件的处理-为Google专利版本2.19添加了优先权日期-解决了Google Patents HTTPS页面2.18版的问题-改进的声明类型解析版本2.17-在Google专利的版本2.16中增加了当前不支持非美国专利文档的指示-版本2.15的各种小修改-改进了声明类型检测。版本2.14-添加了对使用诸如“引用于”之类的语言的从属声明的处理 -增加了对具有编号子组件的索赔

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值