作者 | 胡豫陇
清华大学博士后
方云智能团队核心成员,AI算法应用专家
方云创始团队具有深厚技术研发和企业管理经验,依托长期行业积累和对数字化产业的深刻理解,以数字化方式评价研发团队,驱动企业精确度量研发组织及个人的工作效能,合理调配研发资源。帮助技术决策者精确测评研发组织绩效(便于向上汇报、平级沟通)和个人绩效(便于向下管理)。回顾2020年度,我们在数据分析方面,基于实际用户数据做了大量尝试,取得了显著成效,并将研究成果转化为实际应用,深度提升了产品能力。
(一)算法研究过程
算法研究的基础是数据,无论是基于数学和经验知识的建模分析,还是基于统计学和机器学习的数据分析,都需要依托数据来开展。
算法研究的第一步,我们建立了自主的数据指标体系,并在这个指标体系基础上,开展后续的研究。指标体系由三级指标组成,一级为最基础元数据,二级指标由一级指标计算得到、三级指标由二级指标和一级指标计算得到。一般来说,高级指标具有更高的信息密度,在进行信息表征时,也能够实现更加深度的信息传达效果。但另一方面,数据分析时并不是选择的高级指标越多,越有效果。而是要根据具体场景和算法要求,选择必要的各级指标,才能达到所需的分析效果。例如在kmeans算法中,低级别指标反而具有更好的分类效果,而在SVM算法中,则需要高级别指标。
研究的第二步,Kmeans。我们鉴于元数据收集较为完整,同时数据量不是很大的情况,结合sklearn的算法选择引导图,选择了Kmeans算法对员工的行为数据进行无监督学习聚类。
在选择了若干基础指标数据的同时,我们引入RFM思想,将员工在指定周期内的工作新鲜度(R)、工作频次(F