聚类:用户画像

本文介绍了用户画像的构建,重点讲解了K-means聚类算法的原理、模型评估方法如肘部法则和轮廓系数,并通过Python实现了聚类分析,展示了数据预处理、模型建立和效果检测的步骤,最终应用于用户画像的创建,探讨了层次聚类的AGNES算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用户画像的应用场景

在这里插入图片描述

产品层面的宏观分析维度

在这里插入图片描述
在这里插入图片描述

用户画像标签类型

在这里插入图片描述
在这里插入图片描述

聚类和分类q:

在这里插入图片描述

聚类的距离:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 K-means算法原理

在这里插入图片描述
在这里插入图片描述

模型评估:

误差平方和
在这里插入图片描述

Q1:K值得确定:肘部法则

在这里插入图片描述

Q2: 聚类效果如何评估??:轮廓系数

在这里插入图片描述
在这里插入图片描述

3.3 K-means算法的优缺点

在这里插入图片描述

3.4 使用Pyhton做K-means算法的步骤

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 用户画像

在这里插入图片描述

5.使用K-means做用户画像

(1)数据解释
本节对互联网行业用户进行聚类分析,根据获取到用户的10个维度进行聚类分析,10维度涵盖了用户的观看、关注、消费行为。

KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001,
precompute_distances='auto', verbose=0, random_state=None,
copy_x=True, n_jobs=None, algorithm='auto')

在这里插入图片描述

2) 聚类步骤

确定k值
建模分析
效果检测
聚类结果的解读

.

代码部分:

## 获取数据
from sklearn.metrics import r2_score
import statsmodels.api as sm
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
data =  pd.read_table('C:/Users/lb/Desktop/test/k-means_data.txt',sep='\t',engine="python",encoding = 'gbk')
data.columns.values
data.head()

在这里插入图片描述

data = data.drop(['用户id'],axis=1)

print( data.shape )

在这里插入图片描述

缺失值

pd.isnull(data).sum()

在这里插入图片描述

填充数据

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值