2000万的数据,被我折腾出来了,现在要做的事情就是看看这两千万数据究竟如何。从今天开始,争取每天总结出点东西出来。
首先,本人把数据分成了两份,一份是前500万数据,别外是剩余的数据。
1 按相应的字段,做下统计。
2 看看相应的统计结果。
今天着重看了下入住的身份证信息,前500万数据,干扰太多,需要去燥处理。
但看了下这500万的统计结果,和自己所想的差不多。下面把入住人的前10名的统计结果贴出来。
江苏省 18230 上海市 14738 浙江省 13073 河南省 8027 辽宁省 7944 湖北省 7685 安徽省 7220 山东省 6450 陕西省 5669 河北省 5257 江西省 5234 黑龙江省 5003 四川省 4999 北京市 4356 山西省 3863 福建省 3519 内蒙古自治区 2851 湖南省 2687 广东省 2557 吉林省 2488 天津市 1937 甘肃省 1398 新疆维吾尔自治区 973 广西壮族自治区 970 贵州省 906 云南省 567 |
大家看一看