大家好~我是正在准备毕业论文的经管专业学生,研究方向为数字经济,目前遇到一个棘手的问题,想请教各位大佬!
我的数据涉及河北省11个地级市(2011-2022年)的数据,这一项指标“信息传输、计算机服务和软件业从业人员”。在数据清洗阶段,发现石家庄市近几年的数值远高于其他地级市。虽然已用IQR法(1.5倍)、箱线图和Z-score(阈值>3)检验,结果均显示为异常值,但反复核对河北统计年鉴后确认数据无误。
目前的困惑是:
1. 若数据真实无误,这种情况下是否仍需剔除或调整? 应该用何种方法?
2. 是否存在其他方法(如经济背景分析)能合理解释这种“异常”?
3. 是否有文献或案例支持类似情况的处理方式?
作为学术小白,深知自己经验不足,恳请各位前辈、大佬不吝赐教!无论是统计方法、经济视角的建议,还是相关文献推荐,晚辈都感激不尽!
真心求教,感谢每一位点进来的朋友!