qq_34315050-CSDN博客

原创机器学习相关操作分享（一）

从图中能够发现，`no_of_workers`每个团队的员工人数、`smv`任务分配时间及`over_time`每个团队超时时间之间有明显的正相关关系。数据集共包含1197行、15列，其中`date`、`quarter`、`department`和`day`字段数据类型为object，其余为数字类型。相比之下，缝纫部员工更多集中在0.8左右，精加工车间较多员工生产率接近于1，但整体分布较为分散。首先，对`department`进行数值编码，缝纫部`sewing`为1，精加工车间`finishing`为0。

2023-12-08 19:06:23 411

原创机器学习相关操作分享（二）

同时，针对不平衡样本的评价指标也需要进行相应的更新，我们可以引入`Precision_Recall_curve`、`AP`值、`ROC_curve`、`G-means`，`G-means`指标最大化时的阈值`thresholds`来更加全面的评价模型得到的分类效果。我们定一个`Get_curve`函数，对某一个得到的分类模型，展示它的`Precision_Recall_curve`,`AP`值,`ROC_curve`，`G-means`随阈值变化的曲线，并给出一系列对应的数值。

2023-12-08 19:05:53 444

原创机器学习相关操作分享（三）

我们通过设置簇的个数为3，可以大致衡量哪些章节的文字内容较为接近，如簇编号为2的章节有第4、79、80、91、103回等，说明这些章节的文本内容距离较近。如簇0(紫色点)和簇2(黄色)分别展示在图的四周，簇1(绿色)的章节主要分布在图的中间，每个簇之间的章节相对距离较小。簇2(黄色)的两个主成分相对较小，分布在图的左下部分较多，簇1(绿色)主成分相对较大，分布靠右，验证了聚类结果的有效性。为了观察的美观和简便，我们删除`第1卷`、`第2卷`等文字占用的行，使用正则表达式进行匹配，将满足条件的索引进行筛选。

2023-12-08 19:05:17 390 1

原创机器学习相关操作分享（四）

transform_value_feature=['用户年龄','用户网龄（月）','当月通话交往圈人数','近三个月月均商场出现次数','当月网购类应用使用次数',\。origin_num_feature = ['用户话费敏感度', '用户年龄', '近三个月月均商场出现次数', '当月火车类应用使用次数', '当月飞机类应用使用次数',user_fea=['缴费用户最近一次缴费金额（元）','用户近6个月平均消费值（元）','用户账单当月总费用（元）','用户当月账户余额（元）']

2023-12-08 19:04:45 395

原创机器学习相关操作分享（五）

最终我们选取了原始值，我们认为默性别在不同套餐中的转换率呈现了分布差异。|contract_type| 合约类型| VARCHAR2(500) |ZBG_DIM.DIM_CBSS_ACTIVITY_TYPE||service_type |套餐类型 |VARCHAR2(10) |0：23G融合，1：2I2C，2：2G，3：3G，4：4G||service2_caller_time |Service2_caller_time| NUMBER |单位：分钟|

2023-12-08 19:03:42 420

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 机器学习相关操作分享（一）

原创 机器学习相关操作分享（二）

原创 机器学习相关操作分享（三）

原创 机器学习相关操作分享（四）

原创 机器学习相关操作分享（五）

空空如也

空空如也

原创机器学习相关操作分享（一）

原创机器学习相关操作分享（二）

原创机器学习相关操作分享（三）

原创机器学习相关操作分享（四）

原创机器学习相关操作分享（五）