自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 机器学习相关操作分享(一)

从图中能够发现,`no_of_workers`每个团队的员工人数、`smv`任务分配时间及`over_time`每个团队超时时间之间有明显的正相关关系。数据集共包含1197行、15列,其中`date`、`quarter`、`department`和`day`字段数据类型为object,其余为数字类型。相比之下,缝纫部员工更多集中在0.8左右,精加工车间较多员工生产率接近于1,但整体分布较为分散。首先,对`department`进行数值编码,缝纫部`sewing`为1,精加工车间`finishing`为0。

2023-12-08 19:06:23 411

原创 机器学习相关操作分享(二)

同时,针对不平衡样本的评价指标也需要进行相应的更新,我们可以引入`Precision_Recall_curve`、`AP`值、`ROC_curve`、`G-means`,`G-means`指标最大化时的阈值`thresholds`来更加全面的评价模型得到的分类效果。我们定一个`Get_curve`函数,对某一个得到的分类模型,展示它的`Precision_Recall_curve`,`AP`值,`ROC_curve`,`G-means`随阈值变化的曲线,并给出一系列对应的数值。

2023-12-08 19:05:53 444

原创 机器学习相关操作分享(三)

我们通过设置簇的个数为3,可以大致衡量哪些章节的文字内容较为接近,如簇编号为2的章节有第4、79、80、91、103回等,说明这些章节的文本内容距离较近。如簇0(紫色点)和簇2(黄色)分别展示在图的四周,簇1(绿色)的章节主要分布在图的中间,每个簇之间的章节相对距离较小。簇2(黄色)的两个主成分相对较小,分布在图的左下部分较多,簇1(绿色)主成分相对较大,分布靠右,验证了聚类结果的有效性。为了观察的美观和简便,我们删除`第1卷`、`第2卷`等文字占用的行,使用正则表达式进行匹配,将满足条件的索引进行筛选。

2023-12-08 19:05:17 390 1

原创 机器学习相关操作分享(四)

transform_value_feature=['用户年龄','用户网龄(月)','当月通话交往圈人数','近三个月月均商场出现次数','当月网购类应用使用次数',\。origin_num_feature = ['用户话费敏感度', '用户年龄', '近三个月月均商场出现次数', '当月火车类应用使用次数', '当月飞机类应用使用次数',user_fea=['缴费用户最近一次缴费金额(元)','用户近6个月平均消费值(元)','用户账单当月总费用(元)','用户当月账户余额(元)']

2023-12-08 19:04:45 395

原创 机器学习相关操作分享(五)

最终我们选取了原始值,我们认为默性别在不同套餐中的转换率呈现了分布差异。|contract_type| 合约类型| VARCHAR2(500) |ZBG_DIM.DIM_CBSS_ACTIVITY_TYPE||service_type |套餐类型 |VARCHAR2(10) |0:23G融合,1:2I2C,2:2G,3:3G,4:4G||service2_caller_time |Service2_caller_time| NUMBER |单位:分钟|

2023-12-08 19:03:42 420

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除