在工作实际场景经常涉及将人群或者物件按照某些指定特性进行分类,传统的思路是基于规则进行分组统计,但是越来越多的情景是难以用定量的规则来区分组别的,因此非监督的聚类分析算法为这些场景提供一个很好的思路。本人因为从事医疗相关行业,就以性别和年龄的简单示例来对人群进行分类,跳出以往的按照固定年龄段统计分类人群的思路,这里我们展示如何从数据样本中主动获取年龄和性别分组的组别范围,从而完成分类。
这里以一份1008名不同性别年龄的有门诊备案的数据为例,数据文件为personinfo_data.csv,其链接:https://pan.baidu.com/s/1jeyD8RaQ3Z0v-J05UaRufA 提取码:nwr0
直接上代码:
# coding=utf-8
"""
-------------------------------------------------
File Name: Kmeans
Description : 使用K-Means算法聚类personinfo数据
Author : cheng.gm
date: 2019-04-09
-------------------------------------------------
Change Activity:
2019-04-09:
-------------------------------------------------
"""
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
__author__ = 'cheng.gm'
import pandas as