问题1:以bid(客户一次消费行为id)进行建模,导致同一个客户对应的label不同
解决:以cid(客户id,人维度)进行建模,对label归一化,统一处理为0或者1,相当于加权操作
问题2:训练集和测试集中有重复数据,可能造成过拟合
解决:实际训练时,对重复数据进行处理,如:剔除训练集的重复数据,但在测试集中保留。
如果是参加算法比赛,可以将重复数据找出后做成规则,增加预测准确度
问题3:lgb.train和LGBMClassifier.fit有什么差别?
import lightgbm as lgb
from lightgbm import LGBMClassifier
lgb使用的是lightgbm原生的booster,需要用lgb.Dataset将X和Y集合化
LGBMClassifier是将lightgbm封装为sklearn的API格式,可以使用sklearn的API,包括sklearn2pmml,方便部署