网络直播效果评估中的主播聚类与因果推断分析【附代码】_用因果推断模型判断直播对用户购物转化率的贡献-CSDN博客

本文链接：https://blog.csdn.net/lagougongzuoshi/article/details/144564327

📊 数据科学与大数据专业 | 数据分析与模型构建 | 数据驱动决策

✨ 专业领域：

数据挖掘与清洗
大数据处理与存储技术
机器学习与深度学习模型
数据可视化与报告生成
分布式计算与云计算
数据安全与隐私保护

💡 擅长工具：

Python/R/Matlab 数据分析与建模
Hadoop/Spark 大数据处理平台
SQL数据库管理与优化
Tableau/Power BI 数据可视化工具
TensorFlow/PyTorch 深度学习框架

✅ 具体问题可以私信或查看文章底部二维码

✅ 感恩科研路上每一位志同道合的伙伴！

（1）直播电商行业背景与研究意义

随着抖音、快手等社交内容平台凭借其巨大流量优势涉足直播电商领域，该细分市场规模得以迅速扩张。2020 年疫情的爆发，更是促使消费者直播购物习惯加速养成，推动直播带货迎来第二次高速增长。截至 2021 年 6 月，电商直播用户规模已达 3.84 亿且呈持续上升态势。主播行业因门槛较低且收入潜力可观，吸引了来自各行各业的人员加入，呈现出全民皆主播的现象。

然而，实际数据显示电商主播之间的直播效果存在显著差异。这种差异不仅关乎主播个人的收入和发展，也对品牌方和 MCN 机构的营销推广策略产生重要影响。对于主播而言，了解自身特征与直播效果的关系，有助于针对性地提升直播能力，从而提高直播收益和影响力。对于品牌方和 MCN 机构来说，能够依据主播的特征和潜力，更加精准地选择合作对象，实现营销推广和盈利目标。在疫情常态化的经济环境下，通过优化直播电商行业的资源配置，提升整体运营效率，对稳定经济发展具有不可忽视的作用。

（2）主播聚类分析

数据选取与特征维度确定

本研究基于直播数据，聚焦电商主播，选取了主播个人特征（如年龄、性别、从业经验等）、主播活跃特征（直播频率、直播时长等）、直播人气特征（粉丝数量、点赞数、观看人数等）、直播互动特征（评论数、弹幕数、分享数等）、直播商品特征（商品种类、品牌知名度、商品价格等）、直播观众特征（观众地域分布、年龄层次、性别比例等）等六个方面的数据，构建了全面的主播特征体系。这些维度涵盖了主播直播活动的各个关键环节，能够较为全面地反映主播的综合表现和潜在影响力。

因子分析与聚类过程

运用因子分析法对上述多维度数据进行降维处理。通过提取公因子，将复杂的原始数据转化为少数几个互不相关的综合因子，这些因子能够保留原始数据的大部分信息，同时简化了后续的分析过程。例如，从众多的直播互动指标中提取出一个能够综合反映互动活跃度的因子，从主播的多种个人属性中提炼出与直播能力相关的关键因子等。

基于降维后的因子得分，采用聚类算法将主播划分为不同的类别。这里使用了合适的聚类算法（如 K-Means 聚类等），根据主播在各个因子上的表现，将具有相似特征的主播归为同一类。在聚类过程中，不断调整聚类参数和方法，以确保聚类结果的合理性和稳定性，使得同一类别的主播在多个关键因子上具有较高的相似性，而不同类别之间存在明显的差异。

聚类结果分析

经过聚类分析，主播被分为人气型、活跃型及潜力型三类，且三类主播的特征及直播效果存在显著差异。人气型主播通常在直播人气特征方面表现突出，拥有大量的粉丝和较高的观看量，其直播往往具有较高的关注度和话题性，但可能在商品转化率方面存在一定的提升空间。活跃型主播则在直播活跃特征上表现优异，直播频率高、时长较长，能够持续吸引观众的注意力，通过频繁的直播活动积累了一定的忠实观众群体，其带货转化率相对稳定。潜力型主播可能在某些特定的因子上具有优势，如独特的个人风格、新兴的直播领域或尚未被充分挖掘的观众群体，虽然当前的直播数据表现相对较弱，但具有较大的发展潜力和上升空间，通过进一步优化直播策略和提升自身能力，有望实现直播效果的显著提升。

（3）因果推断分析

处理变量选取与倾向得分匹配

根据前人研究成果和聚类分析结果，选取 “主播是否签约 MCN 机构” 和 “互动性” 作为处理变量，以探究其与主播直播效果之间的因果关系。主播签约 MCN 机构可能会获得更多的资源支持、专业培训和推广机会，从而对直播效果产生影响；而互动性则直接反映了主播与观众之间的互动程度，也可能是影响直播销售业绩的关键因素之一。

为了准确评估处理变量与直播效果之间的因果关系，采用倾向得分匹配方法。该方法通过构建一个 “反事实” 的对照组，使得处理组和对照组在除了处理变量之外的其他特征上尽可能相似，从而消除混杂因素的干扰，更准确地识别处理变量对结果变量的因果效应。例如，在研究主播签约 MCN 机构对直播效果的影响时，通过倾向得分匹配找到在主播个人特征、直播活跃特征、直播人气特征等方面与签约 MCN 机构的主播相似，但未签约的主播作为对照组，对比两组主播在直播效果（如场均销售额和场均带货转化率）上的差异，从而确定签约 MCN 机构这一行为对直播效果的因果影响。

因果推断结果分析

实证分析结果显示，主播是否签约 MCN 机构、主播类型及降维后的 10 个因子都与场均销售额和场均带货转化率之间存在关系。其中，主播类型、主播是否签约 MCN 机构、主播人气、主播活跃度及直播互动 5 个因子对聚类结果的贡献度最高，这进一步说明了这些因素在主播直播效果中的关键作用。

具体而言，主播签约 MCN 机构对其销售额及带货转化率均有显著的促进作用。MCN 机构能够为主播提供专业的团队支持，包括直播策划、商品选品、营销推广等方面的服务，有助于提升主播的直播质量和销售业绩。另一方面，由于销售额受到观看人数的影响，互动性对场均销售额和场均带货转化率呈现反向的影响。随着互动率的不断增加，主播场均销售额逐渐减小，而带货转化率先增大到一定程度后逐渐降低。这可能是因为在一定范围内，较高的互动性能够提高观众的参与度和购买意愿，但当互动过度时，可能会分散观众的注意力，导致部分观众未能完成购买行为，或者观众群体的质量发生变化，从而对销售额产生负面影响。

综上所述，本研究通过对网络主播的聚类分析和因果推断分析，深入揭示了主播特征与直播效果之间的复杂关系，为主播、品牌方和 MCN 机构提供了有价值的参考依据，有助于推动直播电商行业的健康、有序发展。

以下是一段使用 Python 实现主播聚类分析（部分）的示例代码：

python

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 假设已经读取并预处理好的直播数据，存储在一个 DataFrame 中，列名包括主播个人特征、活跃特征等
data = pd.read_csv('live_data.csv')  

# 提取用于聚类的特征列
features = data[['主播人气特征', '主播活跃特征', '直播互动特征', '直播商品特征', '直播观众特征']]  

# 使用 PCA 进行降维，这里选择保留 2 个主成分（可根据实际情况调整）
pca = PCA(n_components=2)
pca_features = pca.fit_transform(features)

# 使用 K-Means 进行聚类，这里假设分为 3 类（根据前文提到的人气型、活跃型、潜力型）
kmeans = KMeans(n_clusters=3, random_state=42)
labels = kmeans.fit_predict(pca_features)

# 将聚类结果添加回原始数据
data['cluster_label'] = labels

# 可视化聚类结果
plt.scatter(pca_features[:, 0], pca_features[:, 1], c=labels)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('主播聚类结果')
plt.show()

# 分析不同聚类类别的特征（这里简单计算每个类别特征的均值，可根据实际需求进行更详细的分析）
cluster_means = data.groupby('cluster_label').mean()
print(cluster_means)

在上述代码中，首先读取并提取了用于聚类分析的特征数据，然后使用 PCA 进行降维，接着运用 K-Means 算法对降维后的数据进行聚类，并将聚类结果可视化展示。最后，通过计算不同聚类类别特征的均值，初步分析了各聚类类别的特征差异。请注意，这只是一个简化的示例代码，实际应用中需要根据数据的具体情况和分析目的进行更细致的处理和优化，包括数据清洗、特征工程、聚类算法参数调整以及更深入的结果分析等步骤，以获得更准确和有价值的主播聚类结果和洞察。

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler

# 假设已经读取并预处理好的直播数据，存储在一个 DataFrame 中，列名包括处理变量（是否签约 MCN 机构）、结果变量（场均销售额、场均带货转化率）和协变量（其他主播特征）
data = pd.read_csv('live_data.csv')  

# 提取处理变量、结果变量和协变量
treatment = data['是否签约 MCN 机构']
outcome = data[['场均销售额', '场均带货转化率']]
covariates = data[['主播人气特征', '主播活跃特征', '直播互动特征', '直播商品特征', '直播观众特征']]

# 对协变量进行标准化处理
scaler = StandardScaler()
covariates_scaled = scaler.fit_transform(covariates)

# 使用逻辑回归模型估计倾向得分
logit = LogisticRegression()
logit.fit(covariates_scaled, treatment)
propensity_scores = logit.predict_proba(covariates_scaled)[:, 1]

# 使用最近邻匹配方法进行倾向得分匹配
nn = NearestNeighbors(n_neighbors=1)
nn.fit(propensity_scores.reshape(-1, 1))
matches = nn.kneighbors(propensity_scores.reshape(-1, 1), return_distance=False)

# 根据匹配结果构建匹配后的数据集
matched_data = pd.DataFrame()
for i in range(len(data)):
    match_index = matches[i][0]
    matched_data = matched_data.append(data.iloc[match_index])

# 比较匹配后处理组和对照组的结果变量差异，以评估因果效应（这里简单计算均值差异，可根据实际情况进行更严谨的统计检验）
treatment_group = matched_data[matched_data['是否签约 MCN 机构'] == 1]
control_group = matched_data[matched_data['是否签约 MCN 机构'] == 0]
treatment_mean = treatment_group[['场均销售额', '场均带货转化率']].mean()
control_mean = control_group[['场均销售额', '场均带货转化率']].mean()
effect = treatment_mean - control_mean
print(effect)