对2017年ChinaVIS挑战赛2作品的学习

参考作品:ChinaVIS2017年挑战赛2一等奖——东北大学-高强

  首先,对挑战赛2做一个简要说明,ChinaVis2017年挑战赛2的数据信息为重庆市网吧上网信息的记录,它分为两部分,一部分为网吧信息(网吧信息.csv,后面我就简称表1),其记录的是重庆市各大网吧的编号、网吧名称、地理坐标(经纬度),其信息共3590条;另一部分为用户的上网信息(hydata_swjl_0.csv和hydata_swjl_1.csv,后面我统一简称表2),它记录的是网吧编号、顾客姓名、顾客性别、上线时间、下线时间、所在地域编号、出生日期,其信息共2000003条;而我们要做的就是从这些数据中提取出我们需要的数据然后将其通过可视化的方法展现出问题所在。从历届作品和比赛题目要求中我们可以看出,比赛一共需要提交的是三个东西:答卷、论文、视频,以下是本人通过阅读该次比赛的一等奖获得者东北大学作品的一些认识及理解。

先来看看题目:

挑战2.1:请对某市网吧上网记录进行分析,从中发现非法经营的现象(接纳未成年人上网)。由于接纳未成年人需要使用成年人有效证件帮助其进行网上实名登记,试着找出用于接纳未成年人的成年人信息,并展示和说明未成年人上网接纳情况。(建议参赛者回答此题文字不多于1000字,图片不多于8张,可以使用附录形式列出非法网吧和非法使用的成年人信息)

挑战2.2:流动人口(籍贯为本市,题目中某市的籍贯代码前两位为50)犯罪问题是我国工业化、城市化的伴生物。由于流动人口缺乏对非落户城市的归属感,容易因为心态不平衡而导致犯罪。试着分析流动人口的上网记录并总结他们的行为特点(可从上网时间、时长、上网人员籍贯等维度分析)。(建议参赛者回答此题文字不多于1000字,图片不多于八张)

挑战2.3:青年犯罪团伙倾向于聚集在娱乐场所内,而网吧是唯一需要登记的娱乐场所。通过上网时空间关系能够推断用户之间可能存在的关系,并辅助公安通过上网时空关系能够推断用户之间可能存在的关系,并辅助公安人员刑侦以及犯罪预防等工作。请试着从上网记录中发现社团。(建议参赛者回答此问题文字不多于1000字,图片不多于八张,可使用附录形式列出发现的社团)

挑战2.4:为了设计出目标人群喜欢的产品,产品经理常遇通过问卷调查、访谈和统计等方式,获得可以区分出目标人群的用户特征或者说用户画像。借鉴上述做法,公安人员可以为网吧做用户画像,可用特征有很多,比如:未成年人上网高峰时段、上网人群年龄以及外来人口比例等等。请综合上面3个问题的分析结果,从多角度设计并展示网吧的用户画像。(建议参赛者回答此题文字不多于1000字,图片不多于8张)

挑战2.5:根据你所搜集的信息以及分析的结果,试着对某市公安局提出综合性建议。(建议参赛者回答此题文字不能多于500字,图片不多于5张)

数据清洗:

分析所给数据,找到几种类型的脏数据,并对其进行清洗。
脏数据的类型主要包含以下几种:
(1)人员出生日期Birthday不合理(如年龄300多岁的)
(2)登记的网吧信息与上网记录不匹配(在表2中有表1中没有)
(3)上下线时间不合理(如上线时间是今天,下线时间是昨天)
(4)区域代码不合理(该栏数据空白或乱码)
(5)姓名不合理(该栏数据空白或乱码)

这些脏数据都存在各种问题,不仅无法使用还会影响后面的分析结果所以第一步就需要将这些数据干掉。

非法经营现象:

在东北大学作品中,他们把存在以下三种情况现象的网吧看做非法经营:
(1)直接接纳未成年人
  部分网吧直接无视法律法规,直接接纳未成年人上网。
(2)超年龄长时间上网
 对于年龄处于40-60岁的且连续上网时间大于72小时或60岁以上连续上网大于72小时,考虑到这一人群的身体状况和生活背景,可以认为他们的身份证被套用来接纳未成年人。
(3)单次上网时间过久
 这些人年龄段正常,但出现了上网时长大于1000小时的

在找出并统计了这些数据后,东北大学他们的做法是在附录中加一个excel表格(违规网吧信息),在百度地图中不同颜色表示不同的违规方式的网吧,右上角显示被套牌的身份信息。

违规网吧的显示

在地图上,他们以蓝点代表直接接纳未成年人的网吧,黄点代表违规利用某些成年人信息的网吧,点的大小代表违法接纳的人数。点击某个点可查看该网吧的详细数据。

详细信息的显示

横坐标代表时刻,纵坐标代表上网人次,红色折线代表未成年人,浅蓝色折线代表年龄介于18到60岁之间的人群。

流动人口分析:

由地域编号,我们可以找出哪些是重庆市人口哪些是其他地区的人口。题目中给出说以50开头的为重庆市,其余的为其他地区,但由于各种原因数据中没有以50开头的地区。东北大学通过查询资料发现需通过5102来定位重庆市人口。 通过该先决条件,东北大学通过筛选,列出了外来人口数top12的外省市,并通过可视化的方法展和分析了外来人口的详细信息。

对重庆流动人口的籍贯,他们利用条形图进行展现。橙色代表女性,蓝色代表男性。 再者,就是他们通过热力图来展现外来人口在重庆市的活动范围。

再次,利用散点图展示外来人口在三个月内的上网的高峰时段。

最后,为了分析外来人口活动的空间范围,在地图上点击某一网吧,显示如图的扇形图,分析了该网吧各年龄层和流动人口的比例。

青少年团伙:

在此处他们的处理用到的一种名为:基于可变滑动窗口的数据挖掘方法。
    首先,筛选出上网次数大于5的用户(所有数据中最大上网次数为22次),将这些数据按照上线的时间升序排列。
    其次,设限制窗口大小为100,将窗口内第一条数据的下线时间与其他数据的下线时间对比,将上下线时间差均在正负15分钟内的数据赋予权重为1,并进一步对比这些数据是否在同一网吧内,如果是,权重加1,如果不是,权重保持不变。
    最后,利用Gephi得到如下图所示的拓扑图,点代表上网次数,线段的粗细代表用户间关系见的强弱关系,黄点代表发现的三个团伙。

简单用户画像:

网吧信息的画像

   综合前面得到的信息,可以简单分析出违规网吧所处的位置多分布于学校和商业街附近。点击这些点,再结合折线图和散点图,可以看出直接接纳未成年人的高峰时段。(可看出学校和商业街的高峰为16点以后,郊区网吧为20点以后)据此可分析出由于交通和人口的原因,城市高峰要早于郊区高峰。

未成年上网人员信息的画像

同时分析该网吧的人员信息,得到以下图形,包括年龄段分类和人口分类。得到一个网吧人员分类的画像。

高峰月份的画像图

有关三个月内的日历高峰图,如图所示横坐标代表星期。将三个月内的每日上网记录数量,按比例显示在图中,选取Top12的点高亮显示。可发现,由于10月份有较长的国庆假期,12月份又临近年底,普遍繁忙,日历图也展示了上网的高峰期主要集中在11月份的普遍周五和周末,这与我们生活实际相符。

高峰月份的画像图

有关三个月内的日历高峰图,如图所示横坐标代表星期。将三个月内的每日上网记录数量,按比例显示在图中,选取Top12的点高亮显示。可发现,由于10月份有较长的国庆假期,12月份又临近年底,普遍繁忙,日历图也展示了上网的高峰期主要集中在11月份的普遍周五和周末,这与我们生活实际相符。

综合性建议:

  根据东北大学团队收集到的信息,他们提出的建议如下:
   综合搜集的信息和分析的结果,提议公安局加强对学校周边和商区周边的网吧的监督力度,对直接接纳未成年人的网吧进行严厉处罚,并对非法利用成年人信息帮助未成年人上网的网吧进行调查,并做进一步处理。从对非法经营网吧的分析中来看,北城天街周围直接接纳未成年的网吧最为密集。
    根据对于上网高峰时间的分析,建议公安局在每天下午四点时放学/下班之后,加强对商业区和学校周围网吧的查处力度,并引进先进的网吧刷卡系统,如未成年人身份证不能刷卡上网;成年人连续上网超过5小时需要再次刷卡重新上线;对于60岁以上的老人用户限制上网时间等;防止套牌身份证的同时,也能保证用户们的身心健康。

总结:

通过对比东北大学和重庆邮电大学的作品,不得不说作品第一名和第二名的确是有差距的,就拿解答第一问的方式来说,东北大学的作品是通过一步一步有根据的推理出来的,而重庆邮电大学则是通过假设一些他们以为的可以判断为违法经营的情况来查找违法经营的网吧,这样做缺少说服力,有兴趣的可以去找重庆邮电大学的作品来看看作对比,虽然最后都得出了同样的正确结果,但相比之下有的地方确实和第一名有些差距,不过,他们也不是没有做的很好的地方,在我看来,在回答用户画像时,他们不仅回答的相对全面,并且用到了chernoff face

 

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值