一、特征工程
通过pandas语法将一些用浮点数字表示的类别列重设为category或者int可能会更好,不一定暂时不需要。在原始的dataframe中的整数基本上时类别除了(‘Timeliness of Financial Reporting’, '公司年龄 ’ ,'上市年数 ')分别对应6,10,11。验证得到基本不会影响结果
一些仅有一个值的列将会被删除以及一些副本列也会被删除
自定义特征工程看下面的文件:
examples/tabular/example_custom_feature_generator.py.
f3与f2,f1的分布有比较大的差别,故f3的效果较差
二、模型参数寻找
#选中特定的一些模型
model_indx = 2
model_to_use = predictor.get_model_names()[model_indx]
specific_model = predictor._trainer.load_model(model_to_use)
model_info = specific_model.get_info()
具体点可以看sitepackget的autogluon的源码