DBSCAN 密度聚类算法:
具体数学解释及算法见 DBSCAN 密度聚类算法, 本文主要进行实践。
背景:
对于金融机构或者电商来说,常常面临团伙套现问题。具体来说,欺诈团伙在电商利用无息(或低息)购物贷款大量购买商品,并在其他平台出售从而完成套现。对于金融机构来说,此类行为占用了大量的资金。
DBSCAN 的特性及适合性
- DBSCAN 可以对任意形状的稠密数据集进行聚类(凸和非凸均可),套现团伙在地理位置上常常表现为非凸(现实社区形状不规则,可能出现互相嵌套的情况)。
- DBSCAN 不需要事先指定聚类中心数目(Kmeans 需要), 这点也适合于我们预先不知道该地区可能团伙数目的情况。
Python 实现
- 导入需要的包
import os
import pandas as pd
import numpy as np
from sklearn.cluster import DBSCAN
- 导入数据
addr_lon = pd.read_csv('test.csv', engine = 'python')