动手前可以先看下这三部分,对于一些数据分析类项目一定要了解对应算法以及相应统计学知识,可参考如下链接:
Kmeans—sklearn—聚类分析详解
Kmeans聚类选择最优K值python实现
Kmeans算法学习笔记
下面的数据划分基于对用户爬虫相关的分类,对于此部分用户考虑其某些风险特征值(涉及风控策略不谈),进行风险剔除后进行相关反爬分析,剔除低频率查询用户,留下风险存疑的用户进行分类,数据进行归一化处理。
分类代码如下:
from sklearn.cluster import KMeans
#from sklearn.decomposition import PCA
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
from pylab import *
from sklearn.preprocessing import MinMaxScaler,StandardScaler
mpl.rcParams['font.sans-serif'] = ['SimHei']#中文字体
mpl.rcParams['axes.unicode_minus'] = False
df=pd.read_csv(r'C:\Users\116815\Desktop\k.c