########################################二维及数据标准化展示###############################################3
4.1 聚类分析
导入库
import numpy as np # 导入numpy库
import pandas as pd
import matplotlib.pyplot as plt # 导入matplotlib库
from sklearn.cluster import KMeans # 导入sklearn聚类模块
from sklearn import metrics # 导入sklearn效果评估模块
数据准备
raw_data = np.loadtxt('D:\Python数据分析与数据化运营\python_book\chapter4\cluster.txt') # 导入数据文件
raw_data = pd.read_csv('D:\打包7.2\购买珠宝钻石客户群体特征细分数据源.csv',encoding='UTF-8') # 导入数据文件
data0=raw_data[['性别','年龄','购买金额','家庭收入']]#只取参与建模的字段
raw_data.head()#查看前五行数据
data0=raw_data.iloc[:,3:]#只取参与建模的字段
data0.info()#查看数据各字段结构含义,无数据缺失
data0.shape#查看总样本及总变量
data0.describe()#观察数据资本情况
2、异常值处理
可以通过箱线图观察异常值,没有异常值,
import matplotlib