数据分析项目
文章平均质量分 61
Deep,dark,fantasy
我想一直走在数据分析的路上
展开
-
数据分析项目 基于K-Means算法的广告聚类分析(6)----使用雷达图对不同聚类对比分析
一、获取各集群的数值特征均值、并标准化nums_data = cluster_pd.iloc[:6, :].T.astype(np.float64) # 获取数据并转换为浮点数nums_min_max = min_max_model.fit_transform(nums_data) # 获取标准化(归一化)后的数据print(nums_min_max.round(4))结果[[0. 0. 0. 1. 0. 0. ] [0.2473 0.原创 2021-04-16 20:36:07 · 2794 阅读 · 4 评论 -
数据分析项目 基于K-Means算法的广告聚类分析(5)----KMeans建模:基于平均轮廓系数,找到最佳K值
一、基于K-Means获取最佳K值score_list = []max_score = -1for k in range(2, 6): # 2,3,4,5 kmeans_model = KMeans(n_clusters=k) # 建模 kmeans_temp = kmeans_model.fit_predict(data_matrix) # 计算点距离 # print(kmeans_temp) score = silhouette_score(data_matr原创 2021-04-16 19:54:45 · 1513 阅读 · 0 评论 -
数据分析项目 基于K-Means算法的广告聚类分析(4)----特征数字化:独热编码(One-Hot)
一、为什么要进行特征数字化这是没有进行特征数字化之前的数据 素材类型 广告类型 合作方式 广告尺寸 广告卖点0 jpg banner roi 140*40 打折1 jpg banner cpc 140*40 满减2 jpg banner cpc 140*40 满减3 jpg banner cpc 140*40 满减4 jpg banner cpc 140*40 满减5 jpg原创 2021-04-15 22:39:45 · 1353 阅读 · 0 评论 -
数据分析项目 基于K-Means算法的广告聚类分析(3)----数据标准化:归一化Min-Max,0-1区间
一、为什么要进行数据标准化这是未标准化前的数据这里取了原数据第2列到第7列的数据日均UV 平均注册率 平均搜索量 访问深度 订单转化率 投放总时间0 3.69 0.0071 0.0214 2.3071 0.0258 201 178.70 0.0040 0.0324 2.0489 0.0030 192 91.77 0.0022 0.0530 1.8771 0.0026 43原创 2021-04-15 21:59:13 · 1274 阅读 · 0 评论 -
数据分析项目 基于K-Means算法的广告聚类分析(2)----计算、合并:相关性
一、为什么要计算相关性#在使用K-Means进行聚类分析时,该算法会计算数据与中心点之间的欧氏距离,两个高相关性的变量会使算法重复计算高相关特征,这会夸大影响,影响最终的聚类结果,因此需要合并高相关性变量二、变量相关性的计算计算变量之间的相关性,并保留四位小数data.corr().round(4).T查看结果 日均UV 平均注册率 平均搜索量 访问深度 平均停留时间 订单转化率 投放总时间日均UV 1.0000 -0.0512 -0.07原创 2021-04-15 21:14:11 · 879 阅读 · 0 评论 -
数据分析项目 基于K-Means算法的广告聚类分析(1)---- 数据清洗
一、背景与目标背景某电商企业,有多个广告投放渠道,该企业希望通过之前的数据对每一个渠道进行分析评价,根据不同渠道的特征,有针对性地指定广告投放策略,实现利益的最大化目标基于K-Means算法,对不同的广告投放渠道进行聚类分析,找到不同渠道的特征,从而实现有针对性地进行广告投放。二、分析思路观察数据,对数据进行清洗计算相关的指标将不同数量级的数据缩放到同一数量级中,将文本数据进行虚拟编码,将其数字化使用K-Means进行建模三、数据的来源及数据的情况数据来源:Kaggl原创 2021-04-14 22:27:38 · 1809 阅读 · 1 评论 -
数据分析项目 基于RFM的精细化管理(5)---- 使用Tableau进行可视化
一、使用Tableau的原因Tableau绘制色彩丰富的图表较为容易Tableau使用起来较为快捷、方便本项目的数据适合使用简单图表显示,节省了使用代码实现可视化的时间Tableau对图表标注的操作较为简单,容易上手二、需要进行可视化的指标客户类型占比主要是看各种类型的客户的占比情况,以便于针对客户类型的占比情况指定策略。客户消费占比主要是看各种类型的客户的消费情况,以便了解哪些类型的客户是对总销售额贡献较大的客户,针对这些客户给予一定的福利,维持这些客户。三、使用Tableau原创 2021-04-06 22:25:39 · 578 阅读 · 0 评论 -
数据分析项目 基于RFM的用户精细化管理(4)---- 基于用户的RFM得分给用户贴标签
一、计算用户的R标签、F标签、M标签分别计算R、F、M指标得分的均值在主数据旁的单元格内分别列出指标、均值在均值列输入=AVERAGE(),分别选中R得分、F得分、M得分列得到R、F、M得分均值在主数据旁新建3列,分别标为R标签、F标签、M标签在R标签中输入:=IF(E:E>$O$32,1,0)如果R得分大于均值,就标记为1,否则标记为0F标签、M标签同理F标签:=IF(F:F>$O$33,1,0)M标签:=IF(G:G>$O$34,1,0)二、根据R、F、M原创 2021-04-02 21:03:12 · 736 阅读 · 1 评论 -
数据分析项目 基于RFM的用户精细化管理(3)---创建评分卡、计算客户的RFM得分
一、建立评分卡根据上一节K-Means得到的阈值,可以建立一个评分卡如下图二、计算R、F、M得分在原来数据之中加入三列分别记为R得分、F得分、M得分在R得分列输入:=IF(B:B>807,1,IF(B:B>498,2,IF(B:B>245,3,IF(B:B>58,4,5))))选中R:最近一次交易间隔天数,根据阈值判断它得了多少分,R越小,分数越高F和M同理,但这两个值是越大分数越高在F得分列输入:=IF(C:C<3,1,IF(C:C<10,2原创 2021-04-02 18:29:38 · 669 阅读 · 0 评论 -
数据分析项目 基于RFM的用户精细化管理(2)---- 使用K-Means聚类算法确定评分卡阈值
一、K-means聚类算法的步骤1.选择聚类的个数K2.随机抽取K个点作为初始化的中心点3.对于数据集中的每一点,计算它与中心点的欧氏距离,可以找到一个最短距离,从而确定这个点是属于哪一类4.计算新的中心点,用第三步的分配结果,重新计算分配好的每一个类中的中心点5.循环,重新分配所有的点,若重新分配的结果与之前相同,那么就说明已经找到了最佳的K-Means分配结果,若不同,重新进入第4步,循环二、K-Means初始中心点的陷阱若初始中心点恰巧选择了某些局部最小值,那么这些类会在一开始就固定不变原创 2021-04-02 17:32:37 · 2170 阅读 · 10 评论 -
数据分析项目 基于RFM的用户精细化管理(1)---- 数据预处理
一、 背景与目标背景这是一家网上商城近三年的销售数据,其希望针对不同类型的客户进行差异化营销,实现更加合理的资源分配,获取最大的客户转化。为了实现上述目的,我们将使用RFM模型进行分析。RFM模型是评价客户价值和客户消费潜力的重要手段,是CRM中的重要模型,通过交易环节中最核心的三个指标:最近消费、消费频率、消费金额进行分析,对用户进行细分,体现不同用户的价值。目标基于消费数据,利用K-Means聚类算法,找到合适的划分区间,利用RFM模型对客户进行分类,提出针对不同类别的客户的营销方案。原创 2021-03-25 16:43:07 · 888 阅读 · 0 评论