本发明涉及大数据分析技术领域,特别涉及一种基于孤立森林算法的销量异常值检测方法。
背景技术:
如何从有限的数据中挖掘出尽可能多的信息一直是进行大数据分析和建模的目标所在,而异常值检测方向也是大数据分析和研究的重点之一,通过对某种商品的每日销量进行异常值检测,能够更好地发现商品销量的趋势,同时也能更好地对出现异常销量的日期进行规律性的探索,更加有针对性地从业务上对出现异常销量的原因进行探究和分析,从而达到指导业务方向,提高生产效率的目的。
目前市场上的销量异常检测方法大多有两种:第一种是通过人为的筛选,它的缺点是非常耗费人力成本,并且容易出错。第二种是使用简单的计算公式设定阈值来进行异常值检测,它的缺点是准确率较低。
技术实现要素:
本发明的目的是克服上述背景技术中不足,提供一种基于孤立森林算法的销量异常值检测方法,使用基于统计学的孤立森林算法,结合销量数据构建异常值检测系统,能够以较高的准确率自动检测出销量数据中的异常值,在节省了人力成本的同时也提高了检测准确率,很好的解决了上面所述的目前市场上的销量检测系统的问题。
为了达到上述的技术效果,本发明采取以下技术方案:
一种基于孤立森林算法的销量异常值检测方法,包括以下步骤:
a.使用python中pandas模块读取销量数据;
b.对读取的数据进行数据清洗;
c.将清洗后的数据使用pandas.sample方法进随机抽样;抽样的目的是为了使每个树模型有差异性,从而使最终的数据结果更加准确ÿ