自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Python: pandas中多级索引的高级操作讲解

Pandas库十分强大,在之前的文章中我已经介绍过了切片操作iloc, loc和ix,本篇文章主要介绍针对多级索引的高级操作。本质上与单级索引的操作相同,但是要注意一些语法的格式。 一、在Multiindex中使用loc 我们先建立一个多级索引的Dataframe: import nump...

2018-10-29 20:12:38

阅读数 3777

评论数 1

原创 在Intellij中打开Python的解释器

Intellij作为一款非常优秀的IDE,也是处理建立Python工程的。 那么在Intellij如何像在Pycharm或者Spyder中打开解释器呢?这对于我们编写代码是十分方便的。 打开解释器很简单。如下: Tools -> Run Python Console ...

2018-10-29 17:05:49

阅读数 442

评论数 0

原创 时间序列模型Prophet使用详细讲解

之前我们已经讲过了如何在Windows系统下安装Python版本的Prophet。详细见这里。 接下来的几个部分,我们说下如何使用Prophet,以此来体验下Prophet的丰富内容。内容会比较多,主要翻译自官方文档。教程中使用的数据集可在 Prophet 的 github 主页 中的 exam...

2018-10-26 20:39:34

阅读数 16105

评论数 12

原创 Windows下安装Python版本的prophet

prophet是Facebook开源的一款时序预测的工具。地址。 在Mac和linux下比较好安装,在Windows下安装就比较坑了。所以,记录以下自己安装成功的过程。 我的环境是win10 64位,python 3.6.1 第一步:安装PyStan fbprophet依赖于PyStan,...

2018-10-25 14:27:37

阅读数 2062

评论数 1

原创 Lightgbm如何处理类别特征?

本篇文章主要参考柯国霖大神在知乎上的回答,以及自己阅读LGBM的部分源码整理而来。 1、one-hot编码弊端 one-hot编码是处理类别特征的一个通用方法,然而在树模型中,这可能并不一定是一个好的方法,尤其当类别特征中类别个数很多的情况下。主要的问题是: ①可能无法在这个类别特征上进行切...

2018-10-22 17:22:22

阅读数 6265

评论数 6

原创 IR的评价指标-MAP,MRR和NDCG的形象理解

一 、MAP(Mean Average Precision): 单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越...

2018-10-17 21:02:21

阅读数 885

评论数 0

原创 Lightgbm源论文解析:LightGBM: A Highly Efficient Gradient Boosting Decision Tree

写这篇博客的原因是,网上很多关于Lightgbm的讲解都是从Lightgbm的官方文档来的,官方文档只会告诉你怎么用,很多细节都没讲。所以自己翻过来Lightgbm的源论文:LightGBM: A Highly Efficient Gradient Boosting Decision Tree仔细...

2018-10-14 17:05:40

阅读数 1321

评论数 0

原创 Lightgbm 直方图优化算法深入理解

一、概述 在之前的介绍Xgboost的众多博文中,已经介绍过,在树分裂计算分裂特征的增益时,xgboost 采用了预排序的方法来处理节点分裂,这样计算的分裂点比较精确。但是,也造成了很大的时间开销。为了解决这个问题,Lightgbm 选择了基于 histogram 的决策树算法。相比于 pre-s...

2018-10-13 17:36:43

阅读数 5816

评论数 16

原创 Xgboost近似分位数算法

一、近似算法 (二)提升树模型:Xgboost原理与实践这篇博客介绍了XGBoost使用exact greedy算法来寻找分割点建树,但是当数据量非常大难以被全部加载进内存时或者分布式环境下时,exact greedy算法将不再合适。因此作者提出近似算法(Approximate Algorithm...

2018-10-12 12:34:00

阅读数 1991

评论数 5

原创 Xgboost如何画出树?

对Xgboost使用了一定程度的读者,肯定会面临如何画出树这个问题,毕竟不画出树就是一个黑箱,黑箱总是难以让人放心。本篇博客完整地给出了如何画出Xgboost中的树的过程。 一、训练一个简单的Xgb模型 我们先训练一个Xgb模型。代码如下: from sklearn.model_selec...

2018-10-09 21:07:29

阅读数 3979

评论数 4

原创 Xgboost: 自带接口与sklearn接口的简单使用及对比

众所周知,Xgboost有两个接口,分别是自带的接口和sklearn接口。在Xgboost的官方文档中,我们可以看到其详细的使用方法。 接下来,我们通过代码的方式对这两种接口进行对比。 第一步:数据集的准备 from sklearn.model_selection import train...

2018-10-09 18:40:19

阅读数 1096

评论数 0

原创 RF, GBDT和Xgboost构造新特征+LR融合的原理及实践

关于Xgboost的知识点很多,本篇博客介绍如何利用Xgboost构造新特征,且在此基础上,介绍与LR模型融合的相关知识点。 目录 一、原理 二、实践 2.1 如何获得样本落在哪个叶子节点 2.2 举例 2.2.1 训练集准备 2.2.2 RF+LR 2.2.3 GBDT+LR ...

2018-10-09 17:51:35

阅读数 4283

评论数 6

原创 Python: 进行one-hot编码

在机器学习中,one-hot编码是对分类特征进行预处理的常用手段。本篇博客讲解了如何利用sklearn来进行one-hot编码。 举一个简单的例子: >> from sklearn.preprocessing import OneHotEncode...

2018-10-09 11:35:48

阅读数 729

评论数 0

原创 机器学习中的多分类任务详解

现实中常遇到多分类学习任务。有些二分类学习方法可直接推广到多分类,如LR。但在更多情形下,我们是基于一些基本策略,利用二分类学习器来解决多分类问题。所以多分类问题的根本方法依然是二分类问题。 具体来说,有以下三种策略: 一、一对一 (OvO) 假如某个分类中有N个类别,我们将这N个类别进行两...

2018-10-08 20:29:58

阅读数 945

评论数 0

原创 (二)提升树模型:Xgboost原理与实践

本篇博客是提升树模型博客的第二篇文章,第一篇介绍GBDT的博客可以参看这里。 本篇博客是基于kingsam_的博客整理而来,在此表示感谢。在这篇文章的基础上,我加入了一些自己的理解,使得介绍Xgboost的内容更加详实易读。 同介绍GBDT一样,我首先会介绍理论部分,然后举例说明模型训练过程,最后...

2018-10-08 18:01:54

阅读数 1779

评论数 4

提示
确定要删除当前文章?
取消 删除