- 博客(5)
- 收藏
- 关注
原创 机器学习相关操作分享(一)
从图中能够发现,`no_of_workers`每个团队的员工人数、`smv`任务分配时间及`over_time`每个团队超时时间之间有明显的正相关关系。数据集共包含1197行、15列,其中`date`、`quarter`、`department`和`day`字段数据类型为object,其余为数字类型。相比之下,缝纫部员工更多集中在0.8左右,精加工车间较多员工生产率接近于1,但整体分布较为分散。首先,对`department`进行数值编码,缝纫部`sewing`为1,精加工车间`finishing`为0。
2023-12-08 19:06:23 411
原创 机器学习相关操作分享(二)
同时,针对不平衡样本的评价指标也需要进行相应的更新,我们可以引入`Precision_Recall_curve`、`AP`值、`ROC_curve`、`G-means`,`G-means`指标最大化时的阈值`thresholds`来更加全面的评价模型得到的分类效果。我们定一个`Get_curve`函数,对某一个得到的分类模型,展示它的`Precision_Recall_curve`,`AP`值,`ROC_curve`,`G-means`随阈值变化的曲线,并给出一系列对应的数值。
2023-12-08 19:05:53 444
原创 机器学习相关操作分享(三)
我们通过设置簇的个数为3,可以大致衡量哪些章节的文字内容较为接近,如簇编号为2的章节有第4、79、80、91、103回等,说明这些章节的文本内容距离较近。如簇0(紫色点)和簇2(黄色)分别展示在图的四周,簇1(绿色)的章节主要分布在图的中间,每个簇之间的章节相对距离较小。簇2(黄色)的两个主成分相对较小,分布在图的左下部分较多,簇1(绿色)主成分相对较大,分布靠右,验证了聚类结果的有效性。为了观察的美观和简便,我们删除`第1卷`、`第2卷`等文字占用的行,使用正则表达式进行匹配,将满足条件的索引进行筛选。
2023-12-08 19:05:17 390 1
原创 机器学习相关操作分享(四)
transform_value_feature=['用户年龄','用户网龄(月)','当月通话交往圈人数','近三个月月均商场出现次数','当月网购类应用使用次数',\。origin_num_feature = ['用户话费敏感度', '用户年龄', '近三个月月均商场出现次数', '当月火车类应用使用次数', '当月飞机类应用使用次数',user_fea=['缴费用户最近一次缴费金额(元)','用户近6个月平均消费值(元)','用户账单当月总费用(元)','用户当月账户余额(元)']
2023-12-08 19:04:45 395
原创 机器学习相关操作分享(五)
最终我们选取了原始值,我们认为默性别在不同套餐中的转换率呈现了分布差异。|contract_type| 合约类型| VARCHAR2(500) |ZBG_DIM.DIM_CBSS_ACTIVITY_TYPE||service_type |套餐类型 |VARCHAR2(10) |0:23G融合,1:2I2C,2:2G,3:3G,4:4G||service2_caller_time |Service2_caller_time| NUMBER |单位:分钟|
2023-12-08 19:03:42 420
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人