背景:在做nlp任务前期,尝试各种常用baseline方法的效果,然后用fix_transform加载数据时,报错MemoryError。请教了相关同事以及网上的解决方案,查到了最根本的方法:换个内存大的机器,然而我的瓶颈就是没有机器~
所以从自己的特征入手,改变原来的特征拼接方法,用内积、累加等方式尝试,结果。。。
所以决定从更上层来尝试——减少提取特征时的维度:
1.将在样本层做处理,将多个文本合并,从而源头上成倍减少特征维度
2.在文本不变的基础上,减低单个文本维度
后续跟进:
对于第一种方式,将特征大小减少到原来的2/3,初步auc效果87%,目前看可以进一步优化