聚类：用户画像

最新推荐文章于 2025-02-06 08:14:13 发布

每天都要被自己菜醒

最新推荐文章于 2025-02-06 08:14:13 发布

阅读量6.9k

点赞数 8

分类专栏：大数据文章标签： python 聚类机器学习聚类算法数据挖掘

本文链接：https://blog.csdn.net/qq_45531594/article/details/108936149

版权

本文介绍了用户画像的构建，重点讲解了K-means聚类算法的原理、模型评估方法如肘部法则和轮廓系数，并通过Python实现了聚类分析，展示了数据预处理、模型建立和效果检测的步骤，最终应用于用户画像的创建，探讨了层次聚类的AGNES算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

用户画像的应用场景

在这里插入图片描述

产品层面的宏观分析维度

在这里插入图片描述

用户画像标签类型

在这里插入图片描述

聚类和分类q：

在这里插入图片描述

聚类的距离：

在这里插入图片描述

3.2 K-means算法原理

在这里插入图片描述

模型评估：

误差平方和
在这里插入图片描述

Q1：K值得确定：肘部法则

在这里插入图片描述

Q2: 聚类效果如何评估？？：轮廓系数

在这里插入图片描述

3.3 K-means算法的优缺点

在这里插入图片描述

3.4 使用Pyhton做K-means算法的步骤

在这里插入图片描述

4. 用户画像

在这里插入图片描述

5.使用K-means做用户画像

（1）数据解释
本节对互联网行业用户进行聚类分析，根据获取到用户的10个维度进行聚类分析，10维度涵盖了用户的观看、关注、消费行为。

KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001,
precompute_distances='auto', verbose=0, random_state=None,
copy_x=True, n_jobs=None, algorithm='auto')

在这里插入图片描述

2) 聚类步骤

确定k值
建模分析
效果检测
聚类结果的解读
.

代码部分：

## 获取数据
from sklearn.metrics import r2_score
import statsmodels.api as sm
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
data =  pd.read_table('C:/Users/lb/Desktop/test/k-means_data.txt',sep='\t',engine="python",encoding = 'gbk')
data.columns.values
data.head()

在这里插入图片描述

data = data.drop(['用户id'],axis=1)

print( data.shape )

在这里插入图片描述

缺失值

pd.isnull(data).sum()

在这里插入图片描述

填充数据

最低0.47元/天解锁文章