2021年04月_Deep,dark,fantasy

原创机器学习（1）--- 数据预处理

一、为什么需要数据预处理数据预处理是在数据分析中必不可少的部分，它在数据分析工作中的地位就相当于做饭之前必须洗菜，将青菜上的细菌、病毒或其他不干净的东西洗净，将不新鲜的部分去除，只不过，作为数据分析人员，我们要清洗的是数据，将数据中的缺失值、重复值、以及其他异常值进行处理，将分类数据进行标准化，将不同数量级的数据进行特征缩放，这就是数据预处理应该做的工作。二、python预处理模板引入第三方库import numpy as npimport pandas as pdimport matop

2021-04-20 19:43:48 1446

原创数据分析项目基于K-Means算法的广告聚类分析（6）----使用雷达图对不同聚类对比分析

一、获取各集群的数值特征均值、并标准化nums_data = cluster_pd.iloc[:6, :].T.astype(np.float64) # 获取数据并转换为浮点数nums_min_max = min_max_model.fit_transform(nums_data) # 获取标准化（归一化）后的数据print(nums_min_max.round(4))结果[[0. 0. 0. 1. 0. 0. ] [0.2473 0.

2021-04-16 20:36:07 2793 4

原创数据分析项目基于K-Means算法的广告聚类分析（5）----KMeans建模：基于平均轮廓系数，找到最佳K值

一、基于K-Means获取最佳K值score_list = []max_score = -1for k in range(2, 6): # 2，3，4，5 kmeans_model = KMeans(n_clusters=k) # 建模 kmeans_temp = kmeans_model.fit_predict(data_matrix) # 计算点距离 # print(kmeans_temp) score = silhouette_score(data_matr

2021-04-16 19:54:45 1512

原创数据分析项目基于K-Means算法的广告聚类分析（4）----特征数字化：独热编码（One-Hot）

一、为什么要进行特征数字化这是没有进行特征数字化之前的数据素材类型广告类型合作方式广告尺寸广告卖点0 jpg banner roi 140*40 打折1 jpg banner cpc 140*40 满减2 jpg banner cpc 140*40 满减3 jpg banner cpc 140*40 满减4 jpg banner cpc 140*40 满减5 jpg

2021-04-15 22:39:45 1351

原创数据分析项目基于K-Means算法的广告聚类分析（3）----数据标准化：归一化Min-Max，0-1区间

一、为什么要进行数据标准化这是未标准化前的数据这里取了原数据第2列到第7列的数据日均UV 平均注册率平均搜索量访问深度订单转化率投放总时间0 3.69 0.0071 0.0214 2.3071 0.0258 201 178.70 0.0040 0.0324 2.0489 0.0030 192 91.77 0.0022 0.0530 1.8771 0.0026 43

2021-04-15 21:59:13 1273

原创数据分析项目基于K-Means算法的广告聚类分析（2）----计算、合并：相关性

一、为什么要计算相关性#在使用K-Means进行聚类分析时，该算法会计算数据与中心点之间的欧氏距离，两个高相关性的变量会使算法重复计算高相关特征，这会夸大影响，影响最终的聚类结果，因此需要合并高相关性变量二、变量相关性的计算计算变量之间的相关性，并保留四位小数data.corr().round(4).T查看结果日均UV 平均注册率平均搜索量访问深度平均停留时间订单转化率投放总时间日均UV 1.0000 -0.0512 -0.07

2021-04-15 21:14:11 878

原创数据分析项目基于K-Means算法的广告聚类分析（1）---- 数据清洗

一、背景与目标背景某电商企业，有多个广告投放渠道，该企业希望通过之前的数据对每一个渠道进行分析评价，根据不同渠道的特征，有针对性地指定广告投放策略，实现利益的最大化目标基于K-Means算法，对不同的广告投放渠道进行聚类分析，找到不同渠道的特征，从而实现有针对性地进行广告投放。二、分析思路观察数据，对数据进行清洗计算相关的指标将不同数量级的数据缩放到同一数量级中，将文本数据进行虚拟编码，将其数字化使用K-Means进行建模三、数据的来源及数据的情况数据来源：Kaggl

2021-04-14 22:27:38 1808 1

原创数据分析项目基于RFM的精细化管理（5）---- 使用Tableau进行可视化

一、使用Tableau的原因Tableau绘制色彩丰富的图表较为容易Tableau使用起来较为快捷、方便本项目的数据适合使用简单图表显示，节省了使用代码实现可视化的时间Tableau对图表标注的操作较为简单，容易上手二、需要进行可视化的指标客户类型占比主要是看各种类型的客户的占比情况，以便于针对客户类型的占比情况指定策略。客户消费占比主要是看各种类型的客户的消费情况，以便了解哪些类型的客户是对总销售额贡献较大的客户，针对这些客户给予一定的福利，维持这些客户。三、使用Tableau

2021-04-06 22:25:39 575

原创数据分析项目基于RFM的用户精细化管理（4）---- 基于用户的RFM得分给用户贴标签

一、计算用户的R标签、F标签、M标签分别计算R、F、M指标得分的均值在主数据旁的单元格内分别列出指标、均值在均值列输入=AVERAGE(),分别选中R得分、F得分、M得分列得到R、F、M得分均值在主数据旁新建3列，分别标为R标签、F标签、M标签在R标签中输入：=IF(E:E>$O$32,1,0)如果R得分大于均值，就标记为1，否则标记为0F标签、M标签同理F标签：=IF(F:F>$O$33,1,0)M标签：=IF(G:G>$O$34,1,0)二、根据R、F、M

2021-04-02 21:03:12 736 1

原创数据分析项目基于RFM的用户精细化管理（3）---创建评分卡、计算客户的RFM得分

一、建立评分卡根据上一节K-Means得到的阈值，可以建立一个评分卡如下图二、计算R、F、M得分在原来数据之中加入三列分别记为R得分、F得分、M得分在R得分列输入：=IF(B:B>807,1,IF(B:B>498,2,IF(B:B>245,3,IF(B:B>58,4,5))))选中R：最近一次交易间隔天数，根据阈值判断它得了多少分，R越小，分数越高F和M同理，但这两个值是越大分数越高在F得分列输入：=IF(C:C<3,1,IF(C:C<10,2

2021-04-02 18:29:38 666

原创数据分析项目基于RFM的用户精细化管理（2）---- 使用K-Means聚类算法确定评分卡阈值

一、K-means聚类算法的步骤1.选择聚类的个数K2.随机抽取K个点作为初始化的中心点3.对于数据集中的每一点，计算它与中心点的欧氏距离，可以找到一个最短距离，从而确定这个点是属于哪一类4.计算新的中心点，用第三步的分配结果，重新计算分配好的每一个类中的中心点5.循环，重新分配所有的点，若重新分配的结果与之前相同，那么就说明已经找到了最佳的K-Means分配结果，若不同，重新进入第4步，循环二、K-Means初始中心点的陷阱若初始中心点恰巧选择了某些局部最小值，那么这些类会在一开始就固定不变

2021-04-02 17:32:37 2169 10

qq_43709590的博客