数据的真实价值就像漂浮在海洋中冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。在大数据时代,数据的价值仍然存在,只是处于“休眠”状态,而要解锁这些数据的价值,就必须通过统计人员的不懈努力并借助新一代的方法和工具,来释放数据隐藏的价值。
大数据来袭势不可挡
世界每时每刻都在产生数据,数据又开始以几何级增长,这种增长速度已经不是“爆炸”二字可以形容的了。国际数据公司(IDC)的《数据宇宙》报告显示:2008年全球数据量为0.5ZB,2010年为1.2ZB,人类正式进入ZB时代。更为惊人的是,2020年以前全球数据量仍将保持每年40%以上的高速增长,大约每两年就翻一倍,预计2020年将突破35ZB。
任何事物量变到一定程度必然要发生质变。哈佛大学里·金教授说:“大数据是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商业还是政府,所有领域都将开始这种进程。”今天,我们进入了信息社会,面临着大数据时代的来临,云计算、物联网、移动终端及可穿戴设备高度发达与融合,不管你是谁、不管你愿意不愿意,都要与数据打交道,要么在生产数据,要么在接收数据。大数据能轻而易举地解决常规统计调查无法涉及到的、各种复杂多变的行业和领域的统计,因为大数据不但量大,其涵盖面也十分广泛,任何时候、地方、人或单位,只要发生了互动行为就要留下“痕迹”,而如何在各种各样的数据中进行深入的分析和挖掘,发现这些数据当中隐藏的更深刻的规律和现象,对这些信息进行加工整理获得的大数据,必然能够有效解决现行统计和国民经济核算资料不全的问题,更好地服务于政府决策和社会各方面的需求。
有效利用大数据资源
实现数据共享。除统计部门外的其他政府部门也积累了海量的数据和行政记录,由于数据开放程度不足,大量的政府数据处于“休眠”状态,而且政府和公共部门是最大的信息数据生产、收集、使用和发布的单位。但现实情况是,海量的数据分散在各个部门、各个层级,彼此分割,形成一个个“信息孤岛”。城市中不同单位之间的数据流通往往是以纸质文件形式进行的,数据的存储也是以电子文档的形式和纸质文档的形式进行,而且不同城市之间的数据交流并不是很方便,一般是孤立的,之间没有共享的网络平台,是一座座“数据孤岛”。这就给大数据的实现带来很大阻碍,尤其针对基层统计分析人员来说,给数据的全面搜集带来很大阻力,不得不停留在小数据分析时代。因此,要实现大数据在统计上的应用,必须打破信息之间“壁垒”,真正实现信息资源共享。只有这样,才能够最大限度地满足常规统计、尤其是国民经济核算的数据需求。
制定统一的标准。首先统计是一门科学,是一项十分严谨的工作。因此,统计指标的含义、口径、范围、来源渠道、计算方法、计量单位等应该统一,只有这样才具有可比性。比如,在大数据背景下,如果能有效获取大型超市、商场、电商历史销售明细,将为CPI调查的小类、基本分类权重分配提供更具说服力的参考依据。但是很多食品以千克为单位,而企业的销售单位往往是袋、瓶或件。如果折算为千克,需要大量细致而繁琐的工作,并且还需要根据企业变化而变化,进行动态调整。数据标准不统一,指标口径杂乱,数据之间就难以整合和衔接,界定哪些信息属于可在统计上应用的大数据,应将大数据的口径、范围调整为常规统计所需的口径和范围,对大数据的海量信息进行甄别、筛选,然后挖掘出统计核算所需要的、且常规统计所难以取得的资料。其次大数据和小数据在运用过程中的结合所需要的理论解释和技术手段也都需要创新,这就需要依据模糊数学、统计学、计量经济学等学科的理论基础,构建和完善智能决策系统的理论基础和理论体系。在这样的理论基础上,还要突破技术上的障碍,实现政府数据交流的网络平台架构、网络数据的安全和保密、数据分析和应用体系的软件设计和完善。同时,传统的个人信息保护制度,在大数据场景下变得越来越难以操作,为防止泄密,有必要制定一个关于大数据开发利用的制度,保障个体信息资料的安全。
培养大数据人才。与信息技术其他细分领域人才相比,大数据产业对人才的复合型能力要求更高,尤其是需要具备综合掌控数学、统计学等方面知识的复合型人才,同时更离不开大数据发掘、加工、整理和分析的人才。因此,必须培养和造就一支懂技术、懂管理、懂指挥的统计大数据建设专业团队,为统计大数据管理人才提供保障。大力培养一批大数据应用、尤其是大数据分析方面的人才,为大数据广泛应用于政府统计奠定基础。中国大数据应用起步相对较晚,教育和职业培训尚不能很好地满足行业发展需求,预计目前大数据人才缺口已经超过100万人。而且随着大数据在中国的不断发展,各个地方都开始兴建大数据中心,但对于大数据中心的建设,更多地还停留在“建机房、上设备、堆数据”的阶段,忽视了大数据对数据的分析和应用。比如,社会信用、食品药品安全等一些社会管理和公共服务系统更多形成的是结果和状态数据,大量的过程和行为数据并未有效采集,占数据总量95%以上的非结构化数据被束之高阁。这些数据如能够得到合理保存并加以开发利用,将有极大的价值。
(作者单位:国家统计局七台河调查队)
本文转自d1net(转载)