作者
德黑兰医科大学:
- Hossein Joudaki
- Arash Rashidian
- Mohammad Arab
- Mahmood Mahmoodi
伊朗科学技术大学:
- Behrouz Minaei-Bidgoli
- Mahdi Nasiri
马赞达兰医科大学:
- Bijan Geraili
摘要
由于错误、滥用和欺诈,保险组织或第三方付款人会进行不适当的支付。这个问题的规模大到足以使其成为卫生系统的优先问题。检测医疗欺诈和滥用的传统方法既耗时又低效。自动化方法和统计知识的结合导致了一个新的跨学科科学分支的出现,这个分支被称为数据库知识发现(KDD)。数据挖掘是KDD进程的核心。数据挖掘可以帮助第三方支付者(如医疗保险组织)从成千上万的索赔中提取有用的信息,并识别较小的索赔子集或索赔者以进行进一步评估。我们回顾了使用有监督和无监督的数据挖掘方法来执行数据挖掘技术以检测医疗欺诈和滥用的研究。大多数可用的研究都集中在算法数据挖掘上,而没有强调或应用于医疗服务或医疗保险政策背景下的欺诈检测工作。需要更多的研究来将针对欺诈或虐待行为的合理和基于证据的诊断和治疗方法联系起来。最后,基于现有的研究,我们推荐医疗索赔数据挖掘的七个一般步骤。
主要内容
本文主要研究了利用监督和非监督的数据挖掘方法检测医疗保险中欺诈和滥用,并给出了一般步骤。
使用的方法也有多次演进,最开始是检查与预定义规则的不一致,然后是采用 OLAP 的方法,再后来就是使用 Data Mining 的方法来找到模式。
监督模型的输入参数主要有:
- 平均药物成本
- 平均诊断费
- 平均索赔金额
- 平均分配药物天数
- 平均每日医疗支出
- 平均会诊和治疗费
- 平均每日药物成本
- 平均分配服务费
非监督的参考指标:
- 费用金额
- 病例数
- 处方天数
- 每例就诊次数
- 每例平均诊疗费
- 每例平均治疗费
- 每例平均药费
- 每例平均费用
- 抗生素处方百分比
- 注射处方百分比
还可以根据关联规则挖掘来提取规则,然后如果多次违反就要较大可能是异常行为。
另外还可以结合一些地理位置信息来进行分析。
分析的七个步骤:
- 根据专家和领域知识确定最重要的属性
- 通过专家知识或者自动化的算法(如关联规则挖掘)定义欺诈或滥用行为的指标。
- 对异常检测的结果进行详细调查
- 对排除了一些不合理的记录的数据进行特征提取
- 识别离群(outlier),并进行详细分析调查,以判断是否是欺诈或滥用
- 基于前一步标记的结果设计监督模型,并选择最有判别力的特征。
- 应用监督方法处理常规的在线任务,应用无监督方法(异常检测和聚类)优化前面的步骤并发现新的欺诈模式。
- 可以聚焦在一个医保索赔的子集上,特别是在资源不足的情况下。
思考
可以应用无监督的方法,如关联规则归纳和聚类
即如果医生开了药物A和药物B,那么他开药物C的可能性为98%
可以找出违反了相应规则的医生