一、核心思路
对欺诈检测问题进行模型的创建,从完全经典的机器学习算法开始,改变经典模型中的部分算法进行量子化,观察实验最终的结果表现。然后再对整个经典算法进行改造从而获得全部由量子机器学习算法构成的欺诈检测模型。
通过一个信用卡消费的数据集对欺诈检测模型进行实验,经过对数据进行预处理然后带入不同模型中进行数值实验,最后对得到的结果进行分析和总结,并且分析了目前量子分类器表现不如传统分类器的原因。
比特是作为经典计算信息量的度量单位存在的,它是经典计算信息量的最小单位。在宏观物理中,比特是利用真实的物理系统获取的。在经典计算机中,利用电位的高低来表达当前信息是 0 还是 1,并且使用这样的方式来进行信息存储和操作的办法也被称为经典信息。量子比特同经典比特相似,它是量子计算信息量的度量单位,是量子计算信息量的最小单位。在微观物理中,量子比特严格遵循量子力学基本原理,用的是量子中的光子,利用两个光子的极化状态来表示当前信息是 0 还是1,当然使用两种自旋状态也可以用来表达信息量。
二、建模与仿真
在量子计算机中,量子并行性依靠的是量子力学的基本规律,凭借自身就能实现并行性。量子并行性的主要表现为我们可以计算一个函数 在定义域内的多个自变量x 的函数值。但是同样因为量子力学的基本性质,在量子力学中,观测会导致量子态像某一确定的态坍塌,所以求出来的值只会是函数值的一个。虽然从结果上看经典计算和量子计算一样,但是从本质上看他们是不一样的,经典计算机要实现并行性必须加硬件设备,实现多大规模的并行就要添加多大规模的硬件,但是量子计算机不会,只需要添加对应量子比特数,然后重复多次实验就可以得到全部结果。假设存在一个函数 的定义域为 ,对应的值域也为 ,经典的方法中就是单纯的取定义域中的自变量带入函数中,然后就能得到相应的值;而量子计算机通过图所示的模型图并行计算函数值:
支持向量机的工作原理是:对于给定的数据集T={(r,3):(,y,)..…(.Xm.ym)》,其中x, ∈R" ( i= 1,2....m)是维度为n的特征向量,m表示样本数目,y, 6 {+1,-1}标注的是每一条数据的分类类别,即y,=+1表示这个样本点x所对应的类为正;y,=-1表示这个样本点x所对应的类为负。对于线性可分的问题来说,一定存在若干超平面(w”.x)+b=0使给定的训练集中的两类数据样本点处于超平面的两边,其中w是决定超平面方向的法向量,b是位移项。并且在这些超平面中,也一定会有一个超平面使最近样本点到超平面的几何间隔是最大的,我们就是为了寻找这样表现最优的超平面。
从上到下不同颜色的曲线表示用不同数据训练的模型得到的 DA值:棕色的曲线代表了 HQMM1 求得的 DA 值,黄色代表 HQMM2 求得的 DA 值,蓝色代表HQMM3 求得的DA 值,紫色代表HQMM4 求得的DA 值,粉色代表HQMM5求得的 DA 值,绿色代表 HQMM6 求得的 DA 值,灰色代表 HQMM8 求得的 DA 值,红色代表 HQMM7 求得的 DA 值。在接下来的四次实验中,每种颜色曲线所代表的模型意义与实验1 相同,但由于数据不同,顺序可能有所不同。在本次实验中,大多数曲线的性能逐渐变好,并趋于稳定。但底部两条曲线的表现略逊于其他六个模型,所有使用欺诈数据训练的模型的表现都略逊于正常数据。这是因为在现实世界中,欺诈的概率仅为真实数据的 0.172%,因此这限制了模型的性能。持卡人与终端之间的差距还体现在数据量上。通常情况下,持卡人可能有多次刷卡行为,但这些刷卡行为不会显示在一台终端上,这只会增加被发现的风险。因此,终端欺诈行为的数量相对于持卡人有所下降。