K-means是一种无监督学习算法,是聚类算法中最简单的一种了。不同与一些分类的监督学习算法,比如逻辑回归、SVM、随机森林等,k-means聚类无需给定Y变量,只有特征X。下面是k-means算法原理及思想。
K-means算法是将样本聚类成k个簇(cluster),具体算法描述如下:
1、 随机选取k个聚类质心点(cluster centroids)为。 2、 重复下面过程直到收敛 { 对于每一个样例i,计算其应该属于的类 对于每一个类j,重新计算该类的质心 } |
K是我们事先给定的聚类数,代表样例i与k个类中距离最近的那个类,的值是1到k中的一个。质心代表我们对属于同一个类的样本中心点的猜测,拿星团模型来解释就是要将所有的星星聚成k个星团,首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为,这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心(对里面所有的星星坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。
下图展示了对n个样本点进行K-means聚类的效果,这里k取2。
K-means面对的第一个问题是如何保证收敛,前面的算法中强调结束条件就是收敛,可以证明的是K-means完全可以保证收敛性。下面我们定性的描述一下收敛性,我们定义畸变函数(distortion function)如下:
J函数表示每个样本点到其质心的距离平方和。K-means是要将J调整到最小。假设当前J没有达到最小值,那么首先可以固定每个类的质心,调整每个样例的所属的类别来让J函数减少,同样,固定,调整每个类的质心也可以使J减小。这两个过程就是内循环中使J单调递减的过程。当J递减到最小时,和c也同时收敛。(在理论上,可以有多组不同的和c值能够使得J取得最小值,但这种现象实际上很少见)。
由于畸变函数J是非凸函数,意味着我们不能保证取得的最小值是全局最小值,也就是说k-means对质心初始位置的选取比较感冒,但一般情况下k-means达到的局部最优已经满足需求。但如果你怕陷入局部最优,那么可以选取不同的初始值跑多遍k-means,然后取其中最小的J对应的和c输出。
kmeans的算法和思想弄懂之后,就开始要知道如何使用它,以及在什么场合适用,有什么优点和缺点。下面我来用示例来展示:
下面是一家航空公司的一部分客户数据:
|
属性名称 |
属性说明 |
客户基本信息 |
MEMBER_NO |
会员卡号 |
FFP_DATE |
入会时间 |
|
FIRST_FLIGHT_DATE |
第一次飞行日期 |
|
GENDER |
性别 |
|
FFP_TIER |
会员卡级别 |
|
WORK_CITY |
工作地城市 |
|
WORK_PROVINCE |
工作地所在省份 |
|
WORK_COUNTRY |
工作地所在国家 |
|
AGE |
年龄 |
|
乘机信息 |
FLIGHT_COUNT |
观测窗口内的飞行次数 |
LOAD_TIME |
观测窗口的结束时间 |
|
LAST_TO_END |
最后一次乘机时间至观测窗口结束时长 |
|
AVG_DISCOUNT |
平均折扣率 |
|
SUM_YR |
观测窗口的票价收入 |
|
SEG_KM_SUM |
观测窗口的总飞行公里数 |
|
LAST_FLIGHT_DATE |
末次飞行日期 |
|
AVG_INTERVAL |
平均乘机时间间隔 |
|
MAX_INTERVAL |
最大乘机间隔 |
|
积分信息 |
EXCHANGE_COUNT |
积分兑换次数 |
EP_SUM |
总精英积分 |
|
PROMOPTIVE_SUM |
促销积分 |
|
PARTNER_SUM |
合作伙伴积分 |
|
POINTS_SUM |
总累计积分 |
|
POINT_NOTFLIGHT |
非乘机的积分变动次数 |
|
BP_SUM |
总基本积分 |
*观测窗口:以过去某个时间点为结束时间,某一时间长度作为宽度,得到历史时间范围内的一个时间段。
目标:对客户精准个性化营销,提升航空公司收益。
思路:
1.选取特征变量;
在经典RFM模型上加上两个业务紧密相关指标,总共5个特征变量。
模型 |
L |
R |
F |
M |
C |
航空公司LRFMC模型 |
会员入会时间距观测窗口结束的月数 |
客户最近一次乘坐公司飞机距观测窗口结束的月数 |
客户在观测窗口内乘坐公司飞机的次数 |
客户在观测窗口内累计的飞行里程 |
客户在观测窗口内乘坐舱位所对应的折扣系数的平均值 |