ChinaVis2017年挑战赛2数据处理分析

ChinaVis2017年挑战赛2提供了三个表,其中表一是网吧地理信息,表二表三是各个网吧几个月的上网情况。我们需要利用这些数据来进行数据分析、利用,最后达到数据可视化的效果。所以这三个表的信息我们需要进行一定的统计,事先同学已统计了10项统计项。在此基础上我又列举了几项统计项,可能与他统计项或多或少有些相似。在此记录主要目的是为什么统计这些数据。

1.外来人口上网情况

1.1 总外来人口上网情况

 从表二三中,我们可以根据AREAID来区分上网人的籍贯。借此来分离出本地人口信息和外来人口信息。分离出外来人口信息后,利用ONLINETIME这个上线时间,可以知道外来人口的上网情况,若以上线时间作为人数统计(一小时作为间隔,每小时内有多少人上网),就可以绘制总的外来人口几个月内上网情况的折线图。借此来了解总的外来人口上网的习惯。

1.2 根据籍贯区分外来人口上网情况

外来人口人数众多,且分别广,来自各个地区。我们想知道各个不同地区的籍贯的外来人口上网是否呈现一定的特征。在此,我们可以对AREAID进行进一步的细分,不仅仅是分为本地人口及外来人口。将外来人口分为来自那些省,用AREAID作为特征来过滤区分,增加新维度AREA,AREA存放处理分析后的省份。根据AREA这个属性,我们可以将上一个总的外来人口折线图细分为各个省份外来人口的折线图。进一步了解外来流动人口的行为特点。

1.3 根据网吧位置区分外来人口上网情况

表二表三中有网吧信息SITEID,根据SITEID我们可以把外来人口上网细分到各个网吧。如xxx网吧总三个月或某个月共有多少人次的外来人口上网 (在此还可以绘制一张某网吧24小时外来人口上网情况折线图,与总的折线图进行比较)。结合表一的网吧地理信息,我们可以在地图上显示外来人口分布。哪块区域的网吧的外来人口比较多,这块区域是什么地方,....结合问题我们可以对外来人口的行为特征进行一定的分析。

1.4 根据年龄的外来人口上网情况

同理,根据表二表三的BIRTHDAY我们可以获取各个外来人口的年龄,对年龄特征我们可以人为的进行一个年龄段划分。例如0-17算一个段,18-35作为一个段,36-60及60以上。根据这四个划分,我们可以将总的外来人口上网情况根据年龄细分为四张折线图。

从数据表的角度来说,我们需要为表增加俩个维度,一个是AGEGR,用于区分年龄段。一个是AREA,用来区分籍贯。

2.网吧特征

2.1 未成年人上网高峰期

这个与上面绘制的折线图相似,只是将数据从外来人口改为未成年人。绘制出了折线图,高峰期一目了然。

2.2 上网人群年龄

我们之前已经将年龄分为四个年龄段,统计各个年龄段人数即可。但这样只有四个维度可能有点少,增加AGE列为具体年龄,以此来绘制图。

2.3 外来人口比例

我们已统计出外来人口以及本地人口,通过计算可以得到比例。增加新列 PCT 作为每个网吧外来人口比例。

 

总的基于网吧的数据统计项

1.网吧上网人数

2.年龄18-35的人数

3.年龄大于60岁以上人数

4.未成年上网人数

5.24点以后上线的人数

6.单次连续上网超过48小时的人数

7.外来人口上网次数

8.每个网吧外来人口上网的高峰时间段

9.籍贯和上网时间均相同的人

10.未成年比例

11.外来人口比例

12.男女比例

13.每个网吧未成年上网的高峰时间段

14.单次最长连续上网时间

15.网吧平均上网时间

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值