ChinaVIS 2018挑战赛1获奖作品总结

此总结所采用的文章为东北师范大学-徐劭斌挑战赛获奖答卷。

首先,我们来看一下挑战赛1的题目描述:

HighTech是一家互联网高科技公司,有几百名员工,分属财务、人力资源和研发三个部门。公司正在全力研发一款重量级新产品,近期该产品临近发布,公司对内部发生的一切异常现象都非常敏感。为了维护公司的核心利益,确保新产品顺利发布,公司高层决定临时成立内部威胁情报分析小组,该小组将根据公司内部采集到的数据,分析并处置可能存在的各种安全威胁。在分析威胁情报过程中,数据的复杂性需要计算智能处理,但发现和处置安全威胁需要人的经验、认知和判断,可视分析技术能将计算智能与人类智慧紧密结合,是威胁情报人员高效分析和理解威胁情报数据的利器。假设您是威胁情报分析小组的成员,请您设计并实现一套可视分析解决方案,帮助该公司及时准确地找出可能存在的内部威胁情报。

然后,再来看一看官方给的数据:

数据按日期一共给了17年11月整月30天的数据,按天分30个文件夹,每个文件夹里有5个csv文件,分别为:checking.csv、email.csv、login.csv、tcplog.csv、weblog.csv。每个csv的数据内容按照文件名能了解是属于那个方面的数据,具体数据内容后面根据题目来分析。

接下来,我们来看问题及东北师范大学对问题的分析和解决方案:

挑战 1.1:分析公司内部员工所属部门及各部门人员组织结构,给出公司员工的组织结构图。

对问题及数据的初步审查后,东北师范大学以email日志的主题分类作为切入点。对于这个问题他们分为三步解决

(1)给人员分部门

 根据邮件数据,使用随机森林算法,基于员工所属部门的重要特征将员工分为财务、人力、研发三个部门,步骤如下:

a. 提取所有数据中频数最大的 90 个主题,为每个员工构建一个 90 维的向量,分别存储该员工收发该主题邮件的频数。
b. 随机选取 40 名员工,基于邮件主题人工赋予其所属部门的标签,构建为训练集,并进行随机森林训练。
c. 利用训练好的随机森林将剩余的 259 名员工分类。

我们发现财务部门有 24 名员工,人力资源部门有 18 员工,研发部门有 257 名员工。

(2)找出每个部门的领导

在(1)的基础上通过员工收发邮件的关系,建立各部门员工之间的连接图,图中每个节点代表一名员工,节点的半径代表员工部门内部收发邮件的总数,边的粗细编码两名员工邮件往来数量。使用信息熵衡量每个员工自我中心网络的混乱程度,即信息熵越大,该员工有更多的联系伙伴;反之,该员工只与个别人员关系紧密。我们使用信息熵编码节点的颜色,从绿到橙映射信息熵从小到大。

财务部和人力资源部内部邮件往来密切,没有出现分堆现象。由于领导管理整个部门,与所有员工均有大量收发邮件行为,信息熵比普通员工更大,且通过分析这些信息熵最大的人员的邮件,其收件中主题为“工作汇报”的最多,而发件主题中“年度工作目标”最多,由此我们可以判定该人员为该部的领导。

对于研发部门员工,他们聚集成明显的簇,故根据节点连接图可分为相对独立的 27 个部门单元,从中可发现其组织结构,根节点 1067 号为最高层领导,1007、1068、1059 号为二级领导,他们分别管理 9、7、11 个部门单元

 

关于信息熵,想详细了解的读者可以参考http://www.storagelab.org.cn/zhangdi/

(3)探索组织结构

在数据库查询 1041 和 1013 员工向上级发送工作总结邮件的情况,发现他们只给 1067 号员工发过主题为“工作汇报”的邮件。因此三个部门组织关系便可整合在一起得到整个公司的组织结构图。1067 号为最高领导,1041 为财务部领导,1013 为人力部领导,1007、1059、1068 为研发部领导。最后在将组织结构理清楚的基础上做了一张公司结构组织图,如下:

个人总结:东北师范大学在解决问题1.1时,首先利用机器学习中的随机森林算法建立训练集来将员工划分部门,然后在部门的基础上,通过节点连接图+信息熵来找出各部门的领导,最后,在此基础上通过邮件内容找出各部门间得联系及结构。对比同为第一名的重庆大学的获奖作品,重庆大学通过用邮件内容制作词云,再通过jieba分词切分主题与关键词相匹配来划分各部门的所属部门,在这一步上两者有异曲同工之妙。而重庆大学通过力导图+邮件内容分析的方法来找出领导与的东北师范用节点连接+信息熵的方法也相差不大。不可否认他们的作品都过程清晰结果完美的解决了这一问题,对比重庆大学,我认为东北师范大学的优点如下:

东北师范大学在节点连接的基础上用到信息熵来计算每个节点的混乱程度,并用颜色区分形成可视的结果,从而判断出组长;而重庆大学根据力导图聚落中的桥节点找出每个聚落的组长。结合可视化的初衷,对比之下,东北师范大学的作品在这一点上能使读者从图中更清晰透彻的发现结论,以下是他们的结果图,读者可自行对比体会:

                           重庆大学

                     

                              东北师范大学

 想要详细了解重庆大学作品的可移步:https://blog.csdn.net/qq_38385844/article/details/87715014

挑战 1.2:分析该公司员工的日常工作行为,按部门总结并展示员工的正常工作模式。 

(1)财务部门:

从工作时间、考勤情况、登陆日志及上下行流量、工作内容几个方面探索各部门的正常工作模式。通过如下考勤热力图:

工作时间:该图展示了全公司各员工的上班情况,每个员工一行,横轴为时间,若员工上班则为这个时间段填色,颜色映射该天的上班时长。可以看出财务部在 11 月 19 日(周日),25 日(周六),26 日(周日)出现超过 60%比例的大面积加班情况。我们推测月底财务部门需要进行账目整理,因此导致这一现象。

上图为工作行为概览图,该图展示了财务部员工上下班时间的分布情况,横轴为时间,纵轴为频率。结合该图可知员工从 7:00 开始陆续上班,在 7:50 到 8:00 间达到峰值,之后大幅减少,因此财务部门正常上班时间为 8:00。同时员工从 17:00 开始下班,在 17:30-18:30 间达到高峰,可以推测该部门正常下班时间为 17:00。总结:财务部门的工作时间为 8:00-17:00,平日存在短时间的加班现象,月底加班严重。

考勤情况:上图c 展示了该部门的 11 月份的员工考勤异常情况,包括:迟到早退、旷工、辞职。图中每个柱形代表一名员工,柱形高度代表异常次数,水波图的比例代表出现异常情况的员工占部门总员工的比例。财务部门员工迟到早退现象严重,高达 75%。

登陆日志及上下行流量情况:上图d 展示了财务部门的登陆日志及上下行流量数据,我们将各个属性分段后,统计重复记录的数量,绘制平行坐标图,一条线代表一条记录,最后一个轴标示该记录的数量。图中只有 2 条线,说明财务部门情况单一,不涉及 login 登录日志数据(TCPLOG 日志主要是 http 协议的网页访问行为和 smtp 协议的邮件收发行为),下行流量远大于上行流量。
工作内容:上图e 展示财务部门频数最多的 10 个邮件主题,主要为财务报账、资金、会计核算等关键词,推断出财务部门的工作内容为财务账目的整理。

(2)人力资源部

根据如上类型的分析图可知:

工作时间:人力部门每周末有 5 人左右加班。员工从 8:00 开始陆续上班,在 8:50 到 9:00 区间达到峰值,之后骤减,推测财务部门正常上班时间为 9:00。18:00 过后下班人数激增,推测此时为人力资源部下班时间。总之,人力资源部门的工作时间为 9:00-18:00,存在少量晚上加班及周末加班的现象。
考勤情况:人力资源部门员工迟到早退现象严重,旷工现象较其他部门严重。

登陆日志及上下行流量情况:与财务部门类似,人力资源部门员工不涉及 login登录日志数据,下行流量远大于上行流量。
e.邮件主题
c.考勤情况
d.平行坐标
a.上班时间分布 b.下班时间分布
工作内容:邮件主题主要为公司简介、复试通知、offer 等关键词,则工作内容
主要是进行对外宣传和招纳新员工。

(3)研发部:

同样根据(1)中同类型的图可分析出:

工作时间:研发部门上班时间普遍较晚,存在两个高峰期 8:50-9:00和 9:50-10:00,20:00-23:40 下班的人数人占有较大比例。研发部门规模较大,我们推测下属的三大研发部门有不同的上下班时间。刷选 1059 号领导的研发一部(包含 9 个部门单元),
发现上班时间分布为单峰,在 10:00 后上班人数骤减,在 19:00 后研发一部的员工开始下班,所以研发一部的正常工作时间为 10:00-19:00,晚上加班严重。同样的方法,对 1007 号员工领导的研发二部和 1068 领导研发三部进行刷选,观察其部门三十天上下班的分布,发现这
e.邮件主题
c.考勤情况
d.平行坐标
a.上班时间分布 b.下班时间分布
e.邮件主题
c.考勤情况
d.平行坐标
a.上班时间分布 b.下班时间分布
两个部门比较相似,正常工作时间均为 9:00-18:00,晚上加班现象同样严重。总之,研发部门存在两个上班时间段,则9:00-18:00 和 10:00-19:00,平日夜晚加班情况严重。

考勤情况:研发部门 11 月有 1281、1376、1487 号员工辞职,而财务部和人力资源部门无辞职员工。研发部员工存在跳槽行为,公司需要完善运行机制来减少因为员工离职对业务产生的消极影响。
登陆日志及上下行流量情况:我们刷取数量大于 100 条的记录探索研发部门员
工的日常行为,发现该部门人员有 ftp,mongodb 等 7 个协议的 login 登录记录,登陆错误较少,上下行流量不存在明显的大小关系。
工作内容:邮件主题多为总结、项目汇报、项目分析、传输设置等关键词,则工作内容主要是进行产品的研发。

个人总结:在这一问题中,我感觉主要是对数据的一些提取,然后选择提取出来对解决问题有帮助的做成自己想要的可视化界面。这点需要熟练的掌握可视化的基础和分析方法,不然做出来的图可能会让他人难读懂。最后通过可视化图形进行总结。

挑战 1.3:找出至少 5 个异常事件,并分析这些事件之间可能存在的关联,总结你认为有价值的威胁情报,并简要说明你是如何利用可视分析方法找到这些威胁情报的。 

。。。。。。。。。

参考作品:东北师范大学-徐劭斌挑战赛获奖答卷

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值