天下大势,分久必合,合久必分。数据分析的本质便是一个分解、整合的过程。
下面以身份证号为例说明数据分析。
第一步:分解
1)前1、2位数字表示:所在省份的代码;
2)第3、4位数字表示:所在城市的代码;
3)第5、6位数字表示:所在区县的代码;
4)第7-14位数字表示:出生年、月、日;
5)第15、16位数字表示:所在地的派出所的代码;
6)第17位数字表示性别:奇数表示男性,偶数表示女性;
7)第18位数字是校检码:也有的说是个人信息码,一般是随计算机的随机产生,用来检验身份证的正确性。校检码可以是0-9的数字,有时也用X表示。
第二步:整合
1)前4位数字,可以判断是否省会城市;
2)根据月份日期,判断星座;
3)根据年份,判断生肖;
...
第三步:拓展
1)将省市与国家行政大区结合,可判断其所属大区;
2)将省市与国家城市等级划分结合,可判断其城市所属等级;
3)将出生年代与国家时代划分结合,可判断其所属时代;
...
简而言之,则是“一分二合三拓展”。
来个小测试题:
从一个身份证号中可以得出哪些信息(分解、整合的数据处理分析意识)?
1省市、2市区、3区县、4出生世纪、5出生年份、6出生月份、7、出生日、8派出所、9性别、10国籍、11年龄、12属相、13星座、14身份证真假......