- 博客(4)
- 收藏
- 关注
原创 6个策略处理不平衡数据
数据不平衡问题被认为是数据挖掘和机器学习领域的主要问题之一,因为大多数机器学习算法假设数据是均匀分布的。在数据不平衡的情况下,多数类主导少数类,机器学习分类器会更偏向于多数类。这导致少数群体的分类不良,分类器甚至可以将所有测试数据预测为多数类。在这篇文章当中你可以获得7种处理不平衡数据的方法。 什么是不平衡数据?不平衡数据通常是指分类问题的问题,其中类没有被平等地表示。...
2019-01-11 10:09:26 3110
原创 99%的人都不知道的Python整理文件方法,效率提升100倍
现在人们经常要去下载或者接收一些文件。比如说同事传来的文档,自己建立的文件,想看的电影等等,那大家都会怎么处理这些文件呢?科研工作者、学生们可能需要阅读大量的文献,我们也需要阅读很多的电子书等等,这些文件你又是如何处理的呢?是一一归类好,还是堆在一个文件夹里就算了?以前我会按照文件的类型进行分类,并定期处理,但这个过程会耗费我大量的时间。·图片类型文件:有pn...
2019-01-08 15:03:55 5947 2
原创 初识LightGBM
上篇了解了如今最火的框架之一xgboost,接下来看下另一款和它一样令人惊艳的框架lightgbm。起源LightGBM全称为Light Gradient Boosting Machine ,由微软开源,一个基于决策树,并且具有快速、分布式、高性能特点的梯度提升框架。它可被用于排行、分类以及其他许多机器学习任务中。同样的,为了方便使用,lightgbm也封装了相应的python库,来看看...
2019-01-08 09:49:15 2230
原创 初识xgboost
经常出入DC竞赛、kaggle、天池等大数据比赛的同学应该很了解xgboost这座大山,几乎所有的比赛都绕不过它,可能只需要这一个库,在比赛中就可以得到很高的分数,究竟是为什们呢?那么就来窥探一下它的庐山真面目吧。起源xgboost 的全称是 eXtreme Gradient Boosting。正如其名,它是 Gradient Boosting Machine 的一个 c++ 实现,作者...
2019-01-04 14:11:26 1396
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人