适合用于聚类的列筛选结果
根据数据特征和聚类需求,以下列适合用于KMeans聚类分析:
1. 数值型特征列
以下列已经是数值型或经过映射后的数值,适合直接用于聚类:
-
来源:已映射为数值(如“微信”为
1
)。 -
Q1-Q27(单选题和矩阵量表题):所有选项已用数值表示,例如:
-
Q1(是否使用抖音APP):
1=是
,2=否
-
Q2(性别):
1=男
,2=女
-
Q3(年龄分段)、Q4(学历)、Q5(职业)等类似数值。
-
Q15-Q27(矩阵量表题):每个子问题(如Q15|R1、Q15|R2等)均为数值评分。
-
2. 需要删除的列
以下列不适合聚类,建议删除:
-
非数值型或无关列:
-
答题序号
:与用户行为无关。 -
开始时间
、提交时间
、答题时长
:时间戳信息,与聚类目标无关。 -
IP省份
、IP城市
、IP地址
:地理位置文本信息,需编码后才能使用(但通常与聚类目标无关)。 -
浏览器
、操作系统
:文本信息,需编码(但通常与聚类目标无关)。
-
-
高缺失率列:
-
Q5|open
:开放性问题,大部分为空值(如数据中的空值),缺失率高。
-
-
单一值列(需检查数据):
-
如果某列所有值相同(如所有用户来源均为“微信”),则删除。
-
3. 保留的列列表
来源, Q1, Q2, Q3, Q4, Q5, Q6, Q7, Q8, Q9, Q10, Q11, Q12, Q13, Q14,
Q15|R1, Q15|R2, Q15|R3,
Q16|R1, Q16|R2,
Q17|R1, Q17|R2, Q17|R3,
Q18|R1, Q18|R2, Q18|R3,
Q19|R1, Q19|R2, Q19|R3,
Q20|R1, Q20|R2, Q20|R3,
Q21|R1, Q21|R2,
Q22|R1, Q22|R2,
Q23|R1, Q23|R2, Q23|R3,
Q24|R1, Q24|R2, Q24|R3,
Q25|R1, Q25|R2, Q25|R3,
Q26|R1, Q26|R2, Q26|R3,
Q27|R1, Q27|R2
以下是数据集中 适合用于聚类的列 及其对应的具体问题解释:
1. 基础用户属性
列名 | 对应问题 | 选项编码(数值化后) |
---|---|---|
来源 | 用户来源渠道 | 1=微信 (其他来源需扩展) |
Q1 | 是否使用过抖音APP | 1=是 , 2=否 |
Q2 | 性别 | 1=男 , 2=女 |
Q3 | 年龄分段 | 1=20岁以下 , 2=21-30岁 , 3=31-40岁 , 4=41-50岁 , 5=51岁以上 |
Q4 | 学历 | 1=初中以下 , 2=高中/中职 , 3=大学专科 , 4=大学本科 , 5=硕士 , 6=博士及以上 |
Q5 | 职业 | 1=在校学生 , 2=公务员 , 3=企业管理者 , ..., 13=其他职业人员 |
Q6 | 月可支配收入 | 1=1500元 , 2=1500-2000元 , 3=2000-3000元 , 4=3000-5000元 , 5=5000元以上 |
Q7 | 月均网购次数 | 1=0次 , 2=1-2次 , 3=3-5次 , 4=6-9次 , 5=10次及以上 |
Q8 | 日均观看抖音时长 | 1=15分钟以下 , 2=15-30分钟 , 3=30-60分钟 , 4=60分钟以上 |
2. 种草者信任度与专业性
列名 | 对应问题(矩阵量表题) | 评分规则 |
---|---|---|
Q15|R1 | 种草者具备扫地机器人领域相关知识 | 数值评分(如1-5分) |
Q15|R2 | 种草者在扫地机器人领域受过专业教育 | 数值评分 |
Q15|R3 | 种草者对扫地机器人有丰富的购买和使用经验 | 数值评分 |
Q16|R1 | 种草者在短视频平台非常有影响力 | 数值评分 |
Q16|R2 | 种草者在社会上有一定名声和声望 | 数值评分 |
3. 用户互动行为
列名 | 对应问题(矩阵量表题) | 评分规则 |
---|---|---|
Q17|R1 | 我喜欢接受种草者的推荐并积极响应 | 数值评分 |
Q17|R2 | 我与种草者之间互相交流 | 数值评分 |
Q17|R3 | 我经常关注种草者的动态 | 数值评分 |
Q18|R1 | 种草者的个性与我相似 | 数值评分 |
Q18|R2 | 种草者的兴趣爱好与我相似 | 数值评分 |
Q18|R3 | 种草者的选择偏好与我相似 | 数值评分 |
4. 信息价值感知
列名 | 对应问题(矩阵量表题) | 评分规则 |
---|---|---|
Q19|R1 | 种草者推荐信息对我有参考价值 | 数值评分 |
Q19|R2 | 种草者全面介绍了扫地机器人信息 | 数值评分 |
Q19|R3 | 种草者对细节特点有详细说明 | 数值评分 |
Q20|R1 | 种草者使用图文结合方式推荐 | 数值评分 |
Q20|R2 | 种草者配有直观真实的视频讲解 | 数值评分 |
Q20|R3 | 种草者采取现场演示方式推荐 | 数值评分 |
5. 促销敏感性
列名 | 对应问题(矩阵量表题) | 评分规则 |
---|---|---|
Q23|R1 | 因直播期间特价而购买 | 数值评分 |
Q23|R2 | 因限量抢购或限量款而购买 | 数值评分 |
Q23|R3 | 因直播间优惠券/礼品而购买 | 数值评分 |
6. 购买决策与情感反馈
列名 | 对应问题(矩阵量表题) | 评分规则 |
---|---|---|
Q21|R1 | 种草者会推荐他人使用 | 数值评分 |
Q21|R2 | 种草者推荐能提升购买意愿 | 数值评分 |
Q22|R1 | 种草视频内容生动有趣 | 数值评分 |
Q22|R2 | 观看视频能让我放松 | 数值评分 |
Q24|R1 | 种草者推荐是亲身体验后的分享 | 数值评分 |
Q24|R2 | 种草者推荐基本没有偏见 | 数值评分 |
Q24|R3 | 种草者推荐的扫地机器人可靠 | 数值评分 |
Q25|R1 | 推荐的扫地机器人物有所值 | 数值评分 |
Q25|R2 | 可以在短视频中买到想要的 | 数值评分 |
Q25|R3 | 购买决策是正确的 | 数值评分 |
Q26|R1 | 观看时感到快乐 | 数值评分 |
Q26|R2 | 观看时感到期待 | 数值评分 |
Q26|R3 | 观看时感到满意 | 数值评分 |
Q27|R1 | 愿意在观看短视频时购买 | 数值评分 |
Q27|R2 | 愿意推荐他人观看短视频购买 | 数值评分 |
处理之后:数据
Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10,Q11,Q12,Q13,Q14,Q15|R1,Q15|R2,Q15|R3,Q16|R1,Q16|R2,Q17|R1,Q17|R2,Q17|R3,Q18|R1,Q18|R2,Q18|R3,Q19|R1,Q19|R2,Q19|R3,Q20|R1,Q20|R2,Q20|R3,Q21|R1,Q21|R2,Q22|R1,Q22|R2,Q23|R1,Q23|R2,Q23|R3,Q24|R1,Q24|R2,Q24|R3,Q25|R1,Q25|R2,Q25|R3,Q26|R1,Q26|R2,Q26|R3,Q27|R1,Q27|R2
2.0,2.0,4.0,1.0,2.0,4.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0,4.0,3.0,5.0,4.0,4.0,3.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,5.0,4.0,4.0,4.0,4.0,4.0,3.0,5.0,4.0,4.0,5.0,4.0,4.0,4.0,5.0,4.0,3.0,5.0,5.0
1.0,2.0,4.0,1.0,2.0,4.0,4.0,1.0,2.0,2.0,2.0,1.0,2.0,4.0,3.0,3.0,4.0,4.0,2.0,2.0,4.0,4.0,4.0,4.0,4.0,5.0,5.0,4.0,4.0,4.0,4.0,4.0,4.0,3.0,4.0,2.0,5.0,3.0,3.0,5.0,4.0,4.0,4.0,3.0,4.0,3.0,2.0,3.0
1.0,2.0,4.0,1.0,2.0,4.0,3.0,1.0,3.0,3.0,2.0,1.0,2.0,3.0,3.0,3.0,2.0,2.0,3.0,3.0,2.0,3.0,3.0,4.0,3.0,4.0,4.0,3.0,4.0,3.0,4.0,3.0,4.0,3.0,4.0,4.0,2.0,3.0,2.0,3.0,4.0,3.0,2.0,2.0,2.0,2.0,3.0,3.0
2.0,2.0,3.0,6.0,4.0,5.0,4.0,1.0,4.0,2.0,2.0,4.0,2.0,4.0,4.0,3.0,3.0,3.0,3.0,3.0,1.0,2.0,1.0,1.0,4.0,5.0,5.0,4.0,5.0,5.0,5.0,5.0,2.0,1.0,4.0,1.0,4.0,5.0,5.0,3.0,4.0,2.0,2.0,1.0,3.0,1.0,2.0,4.0
1