Python之kmeans聚类分析

最新推荐文章于 2024-08-11 16:00:02 发布

Hey_XXP

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量2.4k

点赞数 2

文章标签： python 聚类算法 sql 人工智能数据挖掘

本文链接：https://blog.csdn.net/weixin_41025946/article/details/113248627

版权

本文介绍了如何使用Python的KMeans聚类算法对用户进行风险分类，特别是针对爬虫用户的风控策略。通过数据归一化处理，识别并剔除低频率查询用户，对风险存疑的用户进行聚类分析，以划分低、中、高风险用户群体。进一步，这些风险划分可用于实施人脸验证、短信验证、降频和禁止查询等风控措施。

摘要由CSDN通过智能技术生成

动手前可以先看下这三部分，对于一些数据分析类项目一定要了解对应算法以及相应统计学知识，可参考如下链接:
Kmeans—sklearn—聚类分析详解
 Kmeans聚类选择最优K值python实现
 Kmeans算法学习笔记
下面的数据划分基于对用户爬虫相关的分类，对于此部分用户考虑其某些风险特征值(涉及风控策略不谈)，进行风险剔除后进行相关反爬分析，剔除低频率查询用户，留下风险存疑的用户进行分类，数据进行归一化处理。
分类代码如下：

from sklearn.cluster import KMeans
#from sklearn.decomposition import PCA
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
from pylab import *
from sklearn.preprocessing import MinMaxScaler,StandardScaler
mpl.rcParams['font.sans-serif'] = ['SimHei']#中文字体
mpl.rcParams['axes.unicode_minus'] = False



df=pd.read_csv(r'C:\Users\116815\Desktop\k.c