自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DataCastle

DataCastle — 专业的大数据竞赛平台 http://pkbigdata.com/

  • 博客(4)
  • 收藏
  • 关注

原创 6个策略处理不平衡数据

数据不平衡问题被认为是数据挖掘和机器学习领域的主要问题之一,因为大多数机器学习算法假设数据是均匀分布的。在数据不平衡的情况下,多数类主导少数类,机器学习分类器会更偏向于多数类。这导致少数群体的分类不良,分类器甚至可以将所有测试数据预测为多数类。在这篇文章当中你可以获得7种处理不平衡数据的方法。 什么是不平衡数据?不平衡数据通常是指分类问题的问题,其中类没有被平等地表示。...

2019-01-11 10:09:26 3110

原创 99%的人都不知道的Python整理文件方法,效率提升100倍

  现在人们经常要去下载或者接收一些文件。比如说同事传来的文档,自己建立的文件,想看的电影等等,那大家都会怎么处理这些文件呢?科研工作者、学生们可能需要阅读大量的文献,我们也需要阅读很多的电子书等等,这些文件你又是如何处理的呢?是一一归类好,还是堆在一个文件夹里就算了?以前我会按照文件的类型进行分类,并定期处理,但这个过程会耗费我大量的时间。·图片类型文件:有pn...

2019-01-08 15:03:55 5947 2

原创 初识LightGBM

上篇了解了如今最火的框架之一xgboost,接下来看下另一款和它一样令人惊艳的框架lightgbm。起源LightGBM全称为Light Gradient Boosting Machine ,由微软开源,一个基于决策树,并且具有快速、分布式、高性能特点的梯度提升框架。它可被用于排行、分类以及其他许多机器学习任务中。同样的,为了方便使用,lightgbm也封装了相应的python库,来看看...

2019-01-08 09:49:15 2230

原创 初识xgboost

经常出入DC竞赛、kaggle、天池等大数据比赛的同学应该很了解xgboost这座大山,几乎所有的比赛都绕不过它,可能只需要这一个库,在比赛中就可以得到很高的分数,究竟是为什们呢?那么就来窥探一下它的庐山真面目吧。起源xgboost 的全称是 eXtreme Gradient Boosting。正如其名,它是 Gradient Boosting Machine 的一个 c++ 实现,作者...

2019-01-04 14:11:26 1396

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除