用户画像的应用场景
产品层面的宏观分析维度
用户画像标签类型
聚类和分类q:
聚类的距离:
3.2 K-means算法原理
模型评估:
误差平方和
Q1:K值得确定:肘部法则
Q2: 聚类效果如何评估??:轮廓系数
3.3 K-means算法的优缺点
3.4 使用Pyhton做K-means算法的步骤
4. 用户画像
5.使用K-means做用户画像
(1)数据解释
本节对互联网行业用户进行聚类分析,根据获取到用户的10个维度进行聚类分析,10维度涵盖了用户的观看、关注、消费行为。
KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001,
precompute_distances='auto', verbose=0, random_state=None,
copy_x=True, n_jobs=None, algorithm='auto')
2) 聚类步骤
确定k值
建模分析
效果检测
聚类结果的解读
.
代码部分:
## 获取数据
from sklearn.metrics import r2_score
import statsmodels.api as sm
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_table('C:/Users/lb/Desktop/test/k-means_data.txt',sep='\t',engine="python",encoding = 'gbk')
data.columns.values
data.head()
data = data.drop(['用户id'],axis=1)
print( data.shape )
缺失值
pd.isnull(data).sum()