文章目录
1. 关于 LightGBM的问题
Q: 在一个有百万个特征的数据集中,(要在很长一段时间后才开始训练或者)训练根本没有开始。
解决方法: 对 bin_construct_sample_cnt
用一个较小的值和对 min_data
用一个较大的值。
Q: 当在一个很大的数据集上使用LightGBM,我的电脑会耗尽内存。
解决方法: 很多方法啊:将 histogram_pool_size
参数设置成你想为 LightGBM 分配的MB (histogram_pool_size + dataset size = approximately RAM used), 减少 num_leaves
或减少 max_bin
(点这里 Microsoft/LightGBM#562)。
Q: 我使用Windows系统。我应该使用Visual Studio或者MinGW编译LightGBM吗?
解决方法: 推荐使用 Visual Studio,因为它的性能更好。
Q: Bagging在改变线程的数量时,是不能复现的。
解决方法: 由于LightGBM Bagging是多线程运行的,它的输出依赖于使用线程的数量。
Q: 我试过使用随机森林模式,LightGBM崩溃啦!
解决方法: 由于LightGBM Bagging是多线程运行的,它的输出依赖于使用线程的数量。 There is no workaround currently。
Q: 当在一个很大的数据集上和很多核心系统使用LightGBMWindows系统时,CPU不是满负荷运行(例如只使用了10%的CPU)。
解决方法: 请使用 Visual Studio, 因为Visual Studio可能 10x faster than MinGW,尤其是在很大的树上。