吕伟朝作品分析



名称:邮件往来关系图

类型:有向图

数据来源:Hacking Team的所有邮件以及他们的收发人信息。
可分析数据:
A.源节点:发件人。
B.目的节点:收件人。
C.节点大小:与该邮箱关联的联系人数。
D.节点颜色:与该邮件往来的总邮件数,颜色越深邮件往来越多。
E.边的粗细:表示相邻节点的邮件往来数。
优点:将公司的邮件根据收发地址进行分层,使用这种方法能够得到公司大概的结构,从而得到公司的公司内部员工比较有可信度,而且这种分层结构使得特征更加明显,对接下来的分析也有一定的借鉴意义。
缺点:关于2号框内和三号框内的邮箱地址的从属关系(是指这个邮箱到底是属于一个人还是一个部门)分析不够准确,没有其他数据作为辅助决策。
改进:根据实际情况我们可以知道2号框内的邮箱也有可能是内部邮箱,这种情况是完全存在的。我们还可以对三号框内的邮箱和二号箱内的邮箱的邮件往来情况进行分析,如果邮件往来的频度较高,那么很有可能就是内部员工,并且根据官方提供的数据来说,数据中并没有部门邮箱这种邮箱地址。所以这种分析是不正确的,他们很有可能只是经常接收到群发邮件。
名称:邮件联系人加权度统计(部分)
类型:加权图
数据来源:由表1得到的内部员工列表和权值。
可分析数据:
A.左侧是通过分析得到的员工列表。
B.右边是根据图1得到的该员工在图中的加权值。
优点:可以通过加权值得到邮件往来最为频繁的几个人,从而认为他们就是公司的重要人物。
缺点:只是邮件往来频繁并无法说明他就是公司的重要人物。
改进:可以对邮件的首发量和他与其他疑似关键人物的邮箱的通信频度和其他非关键人物的邮箱的通信频度进行对比,从而确定他就是关键人物。


名称:重要人员发展历程图
类型:气泡图
数据来源:从开始到205年联系人,邮件数及重要邮件数(点的大小)。
可分析数据:
A.左边横轴:联系人数
B.纵轴:邮件总数
C.右边纵轴:年份
优点:可以看到某个员工在公司内部 的活跃程度以及所处职位。
缺点:图上的数据分析并不轻松,因为仍然不好区分不同员工,并且通过调整时间来去比较一个员工在公司内部的职位和重要程度的变化很不方便。而且员工个人的职位变化和某一年所处的职位到底哪个因素在分析中所占的比重较大也不清楚,不好进行定量分析。总得来说就是用来区分的标准不具有说力。
改进:我们可以通过对单个员工的重要程度变化来制作一个折线图,将所有员工放在一个图中进行分析,进行细致的比对,并且还可以对他们邮件首发量进行分析。作为辅助数据分析。
名称:部分重要员工邮件关键词统计图
类型:有向图
数据来源:得到的内部员工的名单列表以及他们的所有邮件的主题
可分析数据:
A.点:代表员工邮箱
B.点和点之间的线:应该是代表邮箱的通信
C.红色的字:代表该员工邮箱的所有邮件中主题频度较高的几个。
D.点和字之间的线:表示邮箱和主题的关联。
优点:可以清楚的看到员工的邮箱所出现的频度最高的几个关键词,并且根据主题分析员工职位的推理比较合理。
缺点:
1.没有考虑到员工在公司内部职位的变化情况。
2.总结出的这些主题没有经过筛选,有一些主题可能大部分的邮箱里都有且频度还不低。没有对邮件主题进行清洗。
改进:要对个人的邮件中土体的变化做时间上的分析,并通过统计所有重要人物的邮件得到他们中主题的共性,并将之删除,以免影响分析结果。
名称:员工行为习惯折线图
类型:折线图
数据来源:每个员工每天各个时间的邮件数量。
可分析数据:
A.横轴:两个小时为一格
B.纵轴:发送邮件的数量
C.线的颜色:代表不同的员工
优点:可以直观对对一个员工每天工作时段进行分析和比较,从而发现规律。
缺点:显然这个图并没有达到他想要的目的-按照员工的行为特点进行分类。所有员工的行为特点趋于一致,这有可能是因为他所选取的员工并没有选取到真正的核心员工所造成的的。还有可能是统计的数据不对,我将在下面进行改进。
改进:应该重新筛选重要员工,多选用几种方式,指定不同的标准,取到他们的交集,这样得到的结果正确率更高。还有就是他不应该对员工的邮件数量进行统计,而是应该对邮件的发送量或者邮件的查阅量进行分析,因为一个人是否工作不能根据他是否收到邮件确定,而是应该看他是否有发送邮件和处理邮件,如果只是根据单纯根据邮件数量,那么确实很有可能大家的趋势趋于一致,因为在公司中毕竟是群发邮件占大多数。他可以很轻易的对分析结果产生影响。

这个图用于对上面那个图进行说明
名称:对低入度点染色后的关系图
类型:拓扑图
数据来源:对垃圾邮件进行筛选之后。对邮箱接受邮件的数量进行统计。
可分析数据:
A.圆圈:代表邮箱地址
B.圆圈的大小:联系人的多少,人越多圈越大。
C.线:代表邮件往来
D.颜色:你可以看到就是上面的东西,代表邮箱的入度。
优点:可以对入度进行筛选,从而筛选出非垃圾邮箱。
缺点:实在很丑,而且容易让人眼花。无法进行定量分析。
改进:鉴于该图的功能很单一,我没有什么改进的意见,改改染色的方案就好。还有就是想把这张图变得简单点,这么简单的功能,使用的分析元素太多,没用到的都!
名称:邮件分类结果图
类型:比例图
数据来源:通过邮件后缀名得到的邮件类型分类。
可分析数据:
A.外圈:代表内部邮件中各种类型的邮件
B.内部圆:代表所有邮件的分类
C.颜色:代表这个图不同类型的邮件
优点:非常清楚的看到各种类型的邮件在邮件总数中不同的占比情况。这种图很适合做比例比较分析。
缺点:不适合定量分析,数据不够细分。
改进:使用更加细致的标准将邮件类型更加细分,比如在内部邮件中事件类型的邮件都中的主题分析。
当鼠标放上去的时候应该有关于该类型邮件的一些信息。比如数量,占比之类的信息。
名称:内部邮件分类
类型:柱状图
数据来源:内部邮件中的主题分类
可分析数据:
A.横轴:邮件数量
B.纵轴:代表不同的邮件主题
优点:还是很明显的。我们可以很轻易的看到内部邮件中主题出现次数居前几位的几个主题,从而可以推断出公司最近的一些信息。
缺点:不能看到某一时间阶段的邮件主题的比较。
改进:还是时间变化的问题,我们应当要对主题进行以时间阶段为轴的分析。
名称:公司主要业务分布图
类型:热力图
数据来源:对所有邮件中高频主题的提取以及当年出现的频率。
可分析数据:
A.横轴:时间轴
B.纵轴:出现频次最高的的30个主题
C.颜色:代表主题出现的频次,颜色越深代表频次越高
优点:我们可以对公司主题的变化进行横向和纵向的分析来得到公司的业务变迁。
缺点:无法进行定量分析,也不明确在哪一个频次以上就可以作为公司的主营业务。而且,当某一年的主题的出现频次都较低时,很难对当年的主营业务进行选取。
改进:应当使用这些数据再做一张每一年主题出现频次的比较图,并说明选取哪一个数量作为标准判断是否是主营业务。

名称:Hacking Team公司合作的国家和地区
类型:比例图
数据来源:根据关键字得到的不同国家出现频次。
可分析数据:
A.颜色:代表不同国家和地区
B.颜色范围:大小代表在这些国家和地区名称出现的总数中所占的比例
优点:可以很清楚的看到跟该公司合作比较密切的国家和地区,非常直观,而且图也很漂亮。
缺点:无法定量分析,如果相对一些合作力度较小的国家和地区进行需求分析从而打开市场,这张图并不能给到帮助。而且不能看到某个国家和地区与给公司合作的领域。
改进:我们应该在图上嵌入更多的信息,当鼠标放到某个颜色区域,应该要显示该国家和地区与公司合作的业务范围,或者应该再加上起始时间(其实最好将起始时间放在另一张图中显示。

PS:一张图的信息量太大,这张图的结果往往也不够直观,失去了分析本身的目的。信息量和直观结果总是一对矛盾的双生子。图无优劣,只有适合与否,一张图的信息量应该尽量精简,能够使得结果更为直观。为了保证准确度我们应该使用多种标准和图表对数据进行分析,并使分析得到的结果也能前后印证,形成一条逻辑链。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值