数据挖掘实践

最新推荐文章于 2023-12-30 02:22:33 发布

qq_45612184

最新推荐文章于 2023-12-30 02:22:33 发布

阅读量724

点赞数

文章标签：数据挖掘聚类大数据数据分析

本文链接：https://blog.csdn.net/qq_45612184/article/details/108754255

版权

客户价值分析_K-Means算法

数据挖掘流程
K-Means聚类算法详解

数据挖掘流程

FLowchart：

获取原始数据

采用爬虫或者其他方法获取航空公司客户的相关数据

数据探索

对数据进行缺失值或异常值分析，去除空值项和异常项。统计每列属性的特征：最大值，最小值等；把握数据的规律。

数据预处理

在了解数据的一般特征后，对数据进行清洗，属性规约，数据变换等操作。

数据清洗：对于缺失值：原始数据量的则可以直接清楚缺失项；异常值过大或者过小也一样。 Pandas模块；根据数据的语义分析，去除不合理项。
属性规约：丢弃与挖掘目标不相关的属性或冗余属性。
数据变换：将数据转换为合适的格式和将原始数据的属性转换为便于挖掘的属性，适应后续建模的需要。比如单位转换；属性间的计算。

# -*- coding: utf-8 -*-
# 对数据进行基本的探索(缺失值和异常值处理）
# 返回缺失值个数以及最大最小值

import pandas as pd

datafile = '../data/air_data.csv'  # 航空原始数据,第一行为属性标签
result_file = '../tmp/explore.xls'  # 数据探索结果表

data = pd.read_csv(datafile, encoding='utf-8')  # 读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）

# 包括对数据的基本描述，percentiles参数是指定计算多少的分位数表（如1/4分位数、中位数等）；T是转置，转置后更方便查阅
explore = data.describe(percentiles=[], include='all').T

explore['null'] = len(data) - explore['count']  # describe()函数自动计算非空值数，需要手动计算空值数

explore = explore[['null', 'max', 'min']]
explore.columns = [u'空值数', u'最大值', u'最小值']  # 表头重命名
'''
describe()函数自动计算的字段有count（非空值数）、unique（唯一值数）、
top（频数最高者）、freq（最高频数）、mean（平均值）、std（方差）、
min（最小值）、50%（中位数）、max（最大值）
'''

explore.to_excel(result_file)  # 导出结果

数据建模

此次挖掘目标是对航空公司的客户进行价值分析，并分类。

采用K-Means聚类算法对数据进行客户分群。这里聚成5类（k=5）。Scikit-Learn库的sklearn.cluster子库
得到5维的聚类中心点。
对客户价值进行分析：数据可视化

# -*- coding: utf-8 -*-
# K-Means聚类算法

import pandas as pd
from sklearn.cluster import KMeans  # 导入K均值聚类算法

input_file = '../tmp/zscoreddata.xls'  # 待聚类的数据文件
k = 5  # 需要进行的聚类类别数(选择的聚类中心数）

# 读取数据并进行聚类分析
data = pd.read_excel(input_file)  # 读取数据

# 调用k-means算法，进行聚类分析
kmodel = KMeans(n_clusters=k, n_jobs=4)  # n_jobs是并行数，一般等于CPU数较好
kmodel.fit(data)  # 训练模型

centers = kmodel.cluster_centers_  # 查看聚类中心
labels = kmodel.labels_  # 查看各样本对应的类别
print(centers)
print(labels)