12306泄露数据分析（二）

最新推荐文章于 2024-03-28 07:32:09 发布

ccxcsdn

最新推荐文章于 2024-03-28 07:32:09 发布

阅读量3.5k

点赞数

分类专栏： python 文章标签：数据分析 12306

本文链接：https://blog.csdn.net/ccxcsdn/article/details/52826859

版权

假装有人看我的博客：CSDN博客要过审核，审核时间大概一天左右，看不到这篇就因为我又更新了。

【重要声明：此次暂未统计香港、澳门、台湾及南海诸岛地区的数据，仅对中国大陆地区的数据进行统计，故在下文中没有提及以上地区】

注：在原数据集中包含来自香港及其他未在统计范围内的数据，由于无法对此类数据进行精确的定位，暂时不列入统计范围。

【比较重要的声明：由于此文仍在更新，暂时保留一些笔记，随笔之类的东西，最后会写一篇正式的统计报告】

以下均简称数据中的人物为”用户”

假设条件：
1.此次数据泄露均为被拖库导致。
1.1：用户在较多的网站注册过账号（鉴于目前的网站种类分布，暂且认为是社交网站）
1.2：且使用相同的账号及密码
2.在5年内乘坐过火车或高铁（此条有待考证，网上订票具体实施日期）

人物画像：
1.来自准一线城市及二线城市
2.属于中等及中等偏上收入人群（高收入人群乘坐火车且自己拥有12306账号的比重不大，低收入人群同上且不符合条件1.1）
2.1：这个好像没什么用，毕竟中等及中等偏上收入人群本身就在总人口中占据较大比重，就好像之前看到的一个例子：【有人做过统计，在重大交通事故中，车速超过120km/h的占比小于正常车速的占比，以此做出结论：发生交通事故与是否超速没有直接联系。实际上，车速超过120km/h的机动车在路上行驶的总机动车中占比本身较小，所以在仅仅统计重大交通事故时占比较小，而把超速行驶的机动车总数和发生交通事故的超速机动车作比较时，就远大于上述比例】。
3.年龄分布在83年至93年出生的人群
4.人口迁徙图做出来再继续写

一、年龄分布图
源代码：plt1.py

# -*- coding: cp936 -*-
'''
文件名:plt1.py
用户分布图
'''


# -*- coding: cp936 -*-
import numpy as np
from matplotlib import pyplot as plt

import csv
csvfile = file(r'D:\python27\py\datas.csv','rb')
newcsv=file(r'D:\python27\py\newcsv.csv','wb')
reader = csv.reader(csvfile)
writer=csv.writer(newcsv)
a=0
data=[]
for line in reader:
    level=line[7][:4]
    #print level
    line.append(level)
    data.append(level)
    #writer.writerow(line)

csvfile.close()
newcsv.close()

最低0.47元/天解锁文章

ccxcsdn

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
12306泄露数据分析（二）

假装有人看我的博客：CSDN博客要过审核，审核时间大概一天左右，看不到这篇就因为我又更新了。【重要声明：此次暂未统计香港、澳门、台湾及南海诸岛地区的数据，仅对中国大陆地区的数据进行统计，故在下文中没有提及以上地区】注：在原数据集中包含来自香港及其他未在统计范围内的数据，由于无法对此类数据进行精确的定位，暂时不列入统计范围。【比较重要的声明：由于此文仍在更新，暂时保留一些笔记，随笔之类的东西，最后会写
复制链接

扫一扫

专栏目录