12306泄露数据分析(二)

假装有人看我的博客:CSDN博客要过审核,审核时间大概一天左右,看不到这篇就因为我又更新了。

重要声明:此次暂未统计香港、澳门、台湾及南海诸岛地区的数据,仅对中国大陆地区的数据进行统计,故在下文中没有提及以上地区

注:在原数据集中包含来自香港及其他未在统计范围内的数据,由于无法对此类数据进行精确的定位,暂时不列入统计范围。

【比较重要的声明:由于此文仍在更新,暂时保留一些笔记,随笔之类的东西,最后会写一篇正式的统计报告】

以下均简称数据中的人物为”用户”

假设条件:
1.此次数据泄露均为被拖库导致。
1.1:用户在较多的网站注册过账号(鉴于目前的网站种类分布,暂且认为是社交网站)
1.2:且使用相同的账号及密码
2.在5年内乘坐过火车或高铁(此条有待考证,网上订票具体实施日期)

人物画像:
1.来自准一线城市及二线城市
2.属于中等及中等偏上收入人群(高收入人群乘坐火车且自己拥有12306账号的比重不大,低收入人群同上且不符合条件1.1)
2.1:这个好像没什么用,毕竟中等及中等偏上收入人群本身就在总人口中占据较大比重,就好像之前看到的一个例子:【有人做过统计,在重大交通事故中,车速超过120km/h的占比小于正常车速的占比,以此做出结论:发生交通事故与是否超速没有直接联系。实际上,车速超过120km/h的机动车在路上行驶的总机动车中占比本身较小,所以在仅仅统计重大交通事故时占比较小,而把超速行驶的机动车总数和发生交通事故的超速机动车作比较时,就远大于上述比例】。
3.年龄分布在83年至93年出生的人群
4.人口迁徙图做出来再继续写

一、年龄分布图
源代码:plt1.py

# -*- coding: cp936 -*-
'''
文件名:plt1.py
用户分布图
'''


# -*- coding: cp936 -*-
import numpy as np
from matplotlib import pyplot as plt

import csv
csvfile = file(r'D:\python27\py\datas.csv','rb')
newcsv=file(r'D:\python27\py\newcsv.csv','wb')
reader = csv.reader(csvfile)
writer=csv.writer(newcsv)
a=0
data=[]
for line in reader:
    level=line[7][:4]
    #print level
    line.append(level)
    data.append(level)
    #writer.writerow(line)

csvfile.close()
newcsv.close()


  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值