文章主要内容总结:
本文探讨了利用大型语言模型(LLMs)进行特征选择的潜力,并提出了一种名为LLM4FS的混合策略。主要内容包括:
- LLM性能评估:对比了DeepSeek-R1、GPT-o3mini和GPT-4.5在特征选择任务中的表现,发现DeepSeek-R1与GPT-4.5性能接近,且成本更低。
- 混合策略LLM4FS:通过让LLM直接调用传统数据驱动方法(如随机森林、前向/后向选择等),结合LLM的语义推理能力和传统方法的统计可靠性,显著提升特征选择效果。
- 实验验证:在四个公开数据集(Bank、Credit-G、Pima Indians Diabetes、Give Me Some Credit)上验证了LLM4FS的有效性,其性能优于纯LLM方法和传统方法。
- 挑战与展望:指出LLM在隐私保护、稳定性及与结构化模型结合等方面的不足,并提出未来研究方向(如联邦学习、基础特征工程模型等)。