内容摘要:应用大数据是未来政府统计发展的必然趋势。本文系统梳理当前政府统计应用大数据的基本类型,研究探索大数据统计应用实践和基本方法思路,剖析大数据统计应用面临的困难和瓶颈,提出推进大数据与政府统计工作融合的路径。大数据的统计应用既有数据获取和质量上的困难,也有技术和方法上的瓶颈。研究认为,大数据与政府统计工作融合预期将经历三个渐进的变化阶段:从短期看,传统统计调查仍是政府统计数据的主要来源,而大数据逐渐成为政府统计的重要补充来源;从中期看,在政府统计信息系统中,大数据的影响逐渐上升,而传统调查的影响有所减弱;从长期看,大数据源将部分(而不是全部)替代传统调查数据,最终实现大数据和传统调查数据优势互补、相互融合的目标。
关键词:大数据;政府统计;数据类型;统计应用;融合路径
中图分类号:F222 文献标识码:A 文章编号:1004-7794(2018)11-0003-09
DOI: 10.13778/j.cnki.11-3705/c.2018.11.001
一、引言
在当今大数据时代,收集、存储、分析海量数据,挖掘数据之间相关关系,洞察数据变化规律和趋势特征,是经济社会统计研究的重要内容。通常,大数据具有数据体量大(Volume)、数据类型多样(Variety)、生成速度快(Velocity)、数据波动大(Volatility)、数据真实性差(Veracity)、数据价值密度低(Value)等多V特征。一方面,大数据以其高频率、细粒度、多样化的优势,为政府统计开辟了新的数据源,成为政府统计数据的重要补充来源,提升了统计服务能力;另一方面,大数据获取难度大、数据质量问题多、统计应用难度大,作为政府统计数据源表现出较大的脆弱性,面临着技术、方法和实际操作层面上的诸多困难和瓶颈。因此,需要对大数据的可用性、连续性、稳定性等质量问题认真评估,对大数据开发利用的成本效益进行深入分析,对不同类型大数据应用的理论方法进行系统可行性论证,以维护政府统计数据的权威性和公信力。可以预见,推进大数据与政府统计工作融合将是长期渐进的过程,需要反复试验研究,不可一蹴而就。
从发展趋势看,大数据在政府统计中应用潜力大,前景广阔。近年来,各国政府统计机构积极研究探索大数据的统计应用,大力推进大数据与政府统计工作融合,积累了许多有益经验,取得了很多成功的应用案例。联合国全球大数据工作组(UNGWG)、世界银行、国际货币基金组织、欧洲经济委员会、欧盟统计局等有关国际组织也分别组织开展大数据统计应用试验合作项目,研制大数据质量评估标准,建立大数据统计应用案例共享平台,举办应用技能培训,共同解决大数据统计应用的世界性难题。本文梳理归纳当前政府统计应用大数据的基本类型,探索研究大数据统计应用实践和基本方法思路,剖析大数据统计应用面临的困难和瓶颈,提出推进大数据与政府统计工作融合的初步路径。
二、政府统计应用大数据的基本类型
在目前政府统计实践中,还没有形成通行统一的关于大数据采集、存储、处理分析的技术方法,实际应用技术方法程序千差万别,具体选择取决于大数据的类型、应用领域和研究目的。为有效评估大数据统计应用价值,分析大数据特征,研究大数据应用方法,更好地指导政府统计应用,有必要对大数据进行分类,按其生成方式、用途和维度可划分为不同的大数据类型。
(一)按大数据生成方式划分
联合国欧洲经济委员会(UNECE)[1]根据大数据生成方式和来源,划分为3大类:一是社交网络数据,指基于人类行为的信息;二是传统业务系统数据,指在行政管理和企业经营过程中产生的记录;三是物网联数据,指基于机器设备生成的数据。前一类是主要表现为非结构化和半结构化数据,数据结构松散且不受控;后两类主要是存储在关系数据库系统中的结构化数据。每一大类包括若干个具体的数据类别。
借鉴联合国欧洲经济委员会的大数据分类,国家统计局在“非传统数据统计应用指导意见”中把大数据界定为通过非传统调查渠道、从第三方获取的数据,包括政府部门的行政记录数据、商业记录数据、互联网数据、基于电子设备生成的数据和其他数据等5大类[2]。行政记录数据和商业记录数据已在政府统计广为应用,而对其他类型大数据的应用还很谨慎。
(二)按大数据在宏观经济社会统计中的用途划分
欧盟统计局[3]在总结大数据在宏观经济社会统计应用研究文献资料的基础上,将常用的大数据归纳如下10大类。
一是金融市场数据,主要来源于中央银行、证券公司、金融市场监管部门等,包括股市、汇市、衍生品及期权交易和报价等高频数据,可用于宏观经济预警预测。
二是电子支付数据,主要来源于银行、金融服务公司、信用卡公司等,包括信用卡、借记卡、信用转账、直接借记、支票交易等高频数据,可用来分析和监测消费行为、消费支出、商品销售、资金流动等经济活动情况。
三是移动手机数据,主要来源于网络运营商、第三方软件开发商等,包括从移动手机接收/拨打电话、短信、微信等信息,可用于人口密度、人口流动、人口分布以及交通统计、旅游统计等。
表1 联合国欧洲经济委员会(UNECE)关于大数据分类 | |||
| |||
编号 | 数据类型 | 编号 | 数据类型 |
1 | 社交网络数据 | 2250 | 企业网页数据 |
1100 | 脸书网、维特、英领等社交网据 | 2260 | 扫描数据 |
1200 | 博客、评论等信息 | 3 | 物联网数据 |
1300 | 个人资料 | 31 | 来自传感器的数据 |
1400 | 图片 | 311 | 固定传感器数据 |
1500 | 视频 | 3111 | 家庭自动化 |
1600 | 搜索引擎上的互联网搜索数据 | 3112 | 天气/污染传感器 |
1700 | 短信、通话记录、数据记录、位置更新、广播覆盖更新、在线新闻等文本信息 | 3113 | 交通传感器/摄像头 |
1800 | 用户生成的地图 | 3114 | 科学传感器 |
1900 | 电子邮件 | 3115 | 安全/监视录像图像 |
2 | 传统业务系统记录数据 | 312 | 移动传感器(跟踪)数据 |
21 | 来自公共机构的数据 | 3121 | 移动电话定位(GPS) |
2110 | 行政管理数据 | 3122 | 汽车、飞机、船只等信号 |
22 | 来自企业的数据 | 3123 | 卫星图像 |
2210 | 商业交易数据 | 32 | 计算机系统数据 |
2220 | 银行/证券记录 | 3210 | 日志 |
2230 | 电子商务 | 3220 | 网页日志 |
2240 | 信用卡数据 |
|
|
四是物联网数据,主要来源于政府公共部门和私营部门,包括汽车、船舶、飞机、智能表、检测监测设备等附带的传感器/追踪器数据和自动传输数据,可用于交通流量统计、人口流动分布统计以及能源资源统计等。
五是卫星遥感图像数据,主要来源于政府部门和私营部门,包括卫星遥感拍摄的各种高清晰图像,可用于测量国土面积、农业和林业种植面积、农作物产量及其结构分布等统计信息。
六是扫描价格数据,由零售商提供的各类商品价格、销售等高频数据,可用来编制分地区、分商品的价格指数。
七是网络抓取价格数据,利用网络抓取技术自动灵活地收集电商网上价格数据,以补充和扩展消费者价格指数范围。
八是网络搜索数据,从互联网收集特定关键词的搜索量和搜索频率,或者是来自搜索引擎的网络搜索数据,可用来分析公共舆情、情绪和政策反应等。
九是文本数据,收集新闻媒体、维基百科等文本摘要形式的各种信息,从中挖掘经济社会活动的变化趋势和规律特征。
十是社交媒体数据,包括在维特、脸谱等互联网上用户相互沟通交流的信息,观察人们的行为反应和活动,可用来监测投资消费市场情绪、公共舆情变化。
据联合国全球大数据工作组(UNGWG)2015年[4]对32个经合组织(OECD)国家、61个非OECD国家和欧盟统计局的调查,在政府统计中最常用的大数据类型有扫描价格数据、网络抓取价格数据、移动手机数据、卫星遥感图像数据,其次是金融市场数据和电子支付数据,社交媒体数据和网络搜索数据因涉及隐私保密问题在政府统计中还很少应用。
(三)按大数据的纵横维度划分
根据大数据在时间和横截面上的不同维度,可划分为3类。
一是以时间序列为主的大数据集,即时间维度(T)长,而横截面变量维度(N)有限,如金融市场数据、电子支付数据、扫描价格数据、网络抓取价格数据等高频数据,通常采用经典的时间序列计量济模型进行统计推断和宏观经济预警预判。
二是以横截面为主的大数据集,即时间维度有限,而截面变量维度很多,主要表现为面板数据,通常采用面板估计方法分析数据变量之间的相关比例关系,并对相关指标进行统计推断。
三是面板大数据集,即时间维度很长,横截面维度很多,须采用大数据技术和模型估计方法,分析数据变量之间的相关关系以及变化特征,并进行相关统计推算和推断。许多大数据是最近才刚开始收集的,时间维度相对有限,但随着时间的推移,面板大数据集将是大数据最主要的表现形式。
三、大数据在政府统计中的主要应用领域和获取方式
目前各国政府统计机构对大数据的应用还处在研究试验阶段,通过组建大数据工作组,设立针对不同数据类型和专业应用的大数据研究试验项目,探索解决大数据采集、分类、清洗、存储、处理、估算、分析等问题。
(一)主要应用领域
纵观各国统计机构对大数据的应用研究实践,主要应用领域有:一是价格统计,基于扫描价格数据和网络抓取价格数据编制价格指数,许多经合组织国家已经将此类数据源纳入价格指数的编制过程中;二是人口、迁移流动、劳动力和旅游统计,利用移动手机数据进行人口和劳动力的流动和分布统计以及旅游统计;三是交通统计,利用道路感应器和船只识别数据进行交通流量和交通强度统计;四是农业和地理信息统计,利用卫星遥感图像数据开展农业统计和空间地理分布统计。此外,利用水电气智能表进行能源环境统计、住房统计,利用信用卡数据开展零售和居民消费支出统计,等等。大数据几乎可以用于政府统计的所有专业领域,而且每一专业领域可能需要应用若干个不同的大数据类型,同一类型大数据也可用于不同的专业领域。各国视本国大数据资源情况,确定应用的重点领域。
总体上,发达国家政府统计应用大数据的力度要比发展中国家更大,应用面更广泛,研究更深入。据调查,在报告的全球115个大数据项目中,有89个来自OECD国家,22个来自非OECD国家,4个项目来自欧盟统计局;有94%的经合组织国家政府统计已经使用或正考虑使用大数据补充和拓展价格统计数据来源,许多国家成为大数据统计应用开发研究的前沿阵地。而多数发展中国家认为大数据源是政府统计数据的重要补充来源,并强调可用于所有统计专业领域,但应用研究的进展相对缓慢,研究项目相对较少。在国际层面,世界银行、联合国全球大数据主要开展将大数据特别是行政数据用于可持续发展目标(SDG)监测的可行性研究。
表2 各国政府统计应用大数据的试验研究项目 | ||
| ||
类型 | 主要应用领域 | 所用的国家统计机构 |
扫描价格数据 | 用于消费者价格指数 | 奥地利、比利时、丹麦、欧盟、芬兰、荷兰、以色列、意大利、日本、卢森堡、罗马尼亚、南非、斯洛伐克、瑞士 |
用于改进住户收支调查的可能 | 瑞典 | |
用于住户食品购买和零售食品消费统计研究 | 美国 | |
用于估算国民核算、住户收支和企业统计 | 捷克 | |
网络抓取 | 用于估计职位空缺统计研究 | 匈牙利 |
用于编制消费价者价格指数 | 比利时、中国、奥地利、芬兰、荷兰、德国、匈牙利、以色列、日本、挪威、韩国、西班牙、美国、斯洛伐克、厄瓜多尔 | |
利用网络收集统计信息的方法研究 | 欧盟统计局 | |
收集劳动力市场统计数据、用来编制调查框架 | 波兰 | |
网络抓取的数据源和应用研究 | 瑞典 | |
用于可持续发展监测 | 突尼斯 | |
移动手机数据 | 用于旅游统计、人口流动统计的可行性研究 | 欧盟统计局 |
用于旅游统计的试验项目 | 爱尔兰、捷克 | |
用于人口流动和分布统计的研究 | 意大利、荷兰、韩国、斯洛伐克 | |
用于劳动力统计的研究 | 英国 | |
用于移民统计 | 波兰 | |
用于交通统计 | 以色列 | |
卫星图像或 | 用于农业统计 | 中国 |
用于统计单位地理位置研究 | 比利时 | |
获取地形、地质、土地利用、地理制图等统计信息 | 墨西哥 | |
用于农业和资源统计 | 美国 | |
用于农业普查和建筑物住宅统计 | 蒙古 | |
社交媒体数据 | 用于消费信心指数研究 | 荷兰 |
用于获取统计和地理信息 | 墨西哥 | |
研究维基统计和官方统计的相关关系 | 爱尔兰 | |
用来建立幸福指数的试验研究 | 厄瓜多尔 | |
信用卡数据 | 信用卡交易数据和零售数据之间比较 | 中国 |
利用信用卡数据改进住房收支调查的可能性 | 瑞典 | |
利用信用卡数据估计消费支出的评估 | 美国 | |
道路感应器和 | 用于社区统计 | 芬兰 |
用于高速公路和水运交通统计 | 中国 | |
用于旅游统计 | 匈牙利 | |
用于交通统计 | 以色列 | |
用于交通强度统计 | 荷兰 | |
水电气智能表 | 用于能源和环境统计研究 | 比利时 |
用于居民电消费量统计以部分取代住户调查 | 加拿大 | |
用于人口和住房、住房入住率、空置率统计研究 | 英国、爱尔兰 |
注:根据UNGWG网站https://unstats.un.org/bigdata/inventory/整理。
(二)大数据获取的主要方式
数据获取是大数据统计应用的主要挑战之一。除社交媒体数据、网络抓取数据、部分网络搜索数据可公开免费获取以外,其他各种类型大数据有的是政府部门的非公开数据,有的是私营部门的专属数据资源。政府统计部门必须依法依规并以成本效益为原则获取和应用大数据。对于行政记录数据,各国主要获取方式和应用条件是:明确政府统计机构有权获取和应用行政记录数据的法律规定;政府部门数据信息实行统一标识和编码,便于不同数据源的合并融合;必须遵守保密机密法规制度,仅用于统计目的;政府统计机构有权参与并影响行政记录的生产设计和收集过程等。对于其他类型大数据,各国最常见的获取方式是与大数据提供方(如移动电话运营商、零售商店和连锁超市、新闻媒体、信用卡公司和支付公司等)建立数据合作伙伴关系,签订数据共享机制协议,或者从大数据公司、信息技术公司等第三方直接购买数据。一些国家正在研究制定国家层面的数据共享机制,审查修订隐私保护立法框架,以确保政府统计机构合法获取和应用各类大数据源。
考虑到大数据采集、清理、处理和分析涉及信息技术、数据挖掘、统计推断等多学科知识和技能,政府统计机构无法独立完成大数据开发应用过程,必须与相关部门开展合作,联合开发应用。在大数据存储管理方面,可以向第三方购买云服务,以解决数据存储问题,减轻建设信息基础设施的压力;可以将分析处理直接外包给数据提供方,政府统计机构不需要与数据提供者共享微观基础数据,避开了隐私机密等敏感问题。在大数据开发应用方面,组建由统计部门、其他政府部门、私营部门、研究团体组成的大数据研究团队和大数据应用实验室,吸纳跨学科跨部门的专家学者共同研究开发应用大数据。因此,政府统计机构在确定大数据开发应用项目时,须通盘考虑主要合作伙伴、信息技术基础设施、人力资源、资金来源等因素,列出大数据应用项目需要优先解决的问题清单。
为推进大数据统计应用,有关国际组织也十分注重建立大数据合作伙伴关系。欧盟统计局成立大数据开发小组,欧洲经济委员会提出大数据倡议,广泛开展大数据应用合作项目,在扫描数据、网络抓取数据、移动手机数据、地理观测数据的统计应用方面取得了实质性成果,有的已进入统计生产实施阶段。许多发展中国家则通过联合国全球大数据工作组、世界银行、全球脉搏、促进统计发展战略伙伴关系等,开展国际层面大数据应用合作,分享最佳实践经验。
四、大数据在政府统计中的主要用途和方法思路
这是大数据统计应用的内核,也是研究探索的重点。从全球应用实践看,目前大数据在政府统计中起着重要的补充作用,在一些专业领域的应用方法思路上已取得初步研究成果。
(一)主要用途
1.扩展现有统计调查范围,使政府统计数据更全面和更详尽。
利用网络抓取价格数据编制消费者价格指数,将价格调查范围从线下扩展到线上,补充传统调查未覆盖的代表群体,更全面反映居民消费价格变动情况。
2.取代部分统计调查项目,进行统计估算和推断,减轻统计调查负担。
利用行政登记数据开展人口普查和生命统计、海关统计和国际收支统计,利用水电气智能表统计居民水电消费量,利用高速公路联网监控系统数据统计公路运输量,利用卫星遥感图像数据测量农作物面积和农产品产量。这些大数据可以部分取代现有统计调查项目。
3.评估核查校验现有统计数据,提高数据真实准确性。
利用信用卡数据和扫描数据评估社会消费品零售总额、居民消费支出及其分地区数据,改进贸易统计和住户调查数据质量;利用工程机械企业主要设备工作时间和综合开工率走势,来判断全国投资增速的合理性。
4.对现有关键指标进行实时监测预报,提高统计数据及时性。
利用移动手机数据开展人口、劳动力流动和分布统计,将统计频率从年度、季度提高到月度,甚至每天进行实时观测;利用金融市场数据、谷歌趋势数据进行经济增长的短期预报,开展实时统计监测,弥补现有宏观经济统计数据的延滞性问题。
5.获取地理信息,完善抽样框,提高统计设计能力。
利用卫星遥感图像数据和社交媒体数据作为识别调查单位的辅助信息,制作地理分布位置图,改进人口和劳动力调查、企业调查抽样框,实现统计调查全覆盖。
6.开展舆情调查分析,提高统计服务水平。
利用反映互联网行为趋势、情绪变化的社交媒体数据编制投资消费信心指数,构建舆情趋势监测指标,观察经济社会活动新模式、生活消费新趋势,加强对经济社会运行的测量和描述。
总之,大数据是政府统计的重要补充来源,可补充现有政府统计在覆盖范围、细粒度上的不足,填补重要数据缺口,改善政府统计相关性;提高统计频率,增强政府统计及时性;部分替代传统统计调查项目,减轻统计调查负担,提高政府统计生产的成本效率;生产新的统计产品,提供新的统计洞察力,提升政府统计服务能力。
(二)主要方法思路
大数据体量大、频率高、可变性强,具有很大的不确定性,事先无法设置确定的变量关系模式,因此大数据应用不能再现传统统计生产过程,也不能运用传统的统计方法来处理,而主要依赖各种算法来挖掘发现大数据的规律特征,通过建模方法进行统计估算和推断。大数据统计推断的技术可行性、方法合理性以及结果的有效性,是评估判断大数据统计应用是否成功的重要依据。在认定大数据的统计价值和成本效益之后,大数据的统计应用通常须经过3个阶段:一是大数据处理,包括数据存储和管理、数据源质量评估、数据结构转换、数据清洗和异常值检测等;二是大数据分析,通过机器学习、网络分析、模式识别和可视化展示等数据挖掘技术,寻找发现数据特征、相关关系和变化规律,在此基础上进行统计汇总和统计推断,衡量经济社会现象的规模、水平、速度、比例关系,预测预判变化趋势;三是结果评估,从统计专业角度对数据结果进行科学性审查,从经济社会角度对数据结果进行合理性和可解释性评估,并与其他结果进行相互验证,确保统计结果真实准确可靠。
大数据统计应用的方法很多也很复杂,具体方法取决于不同的专业领域和不同的大数据类型。实际应用时要突破传统统计理论的框框,创新统计方法和统计思维。在价格统计方面,扫描价格数据和网络抓取价格数据已成为许多发达国家编制价格指数的新数据源。面对采价产品数量规模大、更新换代快的全量数据,需要突破“比较不同时期固定数量篮子同质可比的产品和服务价格”[5]这一传统价格指数理论框架。为此,英国、荷兰、比利时等统计局专门针对网络抓取数据和扫描数据提出比较固定类群相对同质可比的产品价格,观测反映消费者购买同质同类产品群的价格变化。在比较的时期内产品类群是固定的,而具体产品是可变的。相应地,提出了一系列适用于新数据源的指数方法。例如,英国提出采用大型数集聚类价格指数方法(Clustering large datasets into price Indices,简称CLIP)[6]计算基本分类以下不同时期相同产品类群的价格之比,而不是具体产品价格之比。其前提条件是要对巨量的采价产品进行聚类,最大限度地增加群内产品的高度同质性和相似性,以保证群内产品没有显著差异,以降低价格指数的偏差。欧盟统计局提出采用动态方法和多边比较方法(GEKS法、TPD法、GK法等)[7]计算分类价格指数,以解决采价产品更新快的问题。显然,这些理论框架方法是对传统价格指数理论方法的拓展和延伸。国际货币基金组织计划修订《消费者价格指数手册:理论与实践》,增加新数据源收集和应用的基本理论方法。大数据统计应用的理论突破和方法创新必须进行公理检验,具有经济含义的可解释性和统计推断的有效性,充分体现方法的无偏性和科学严谨性。
在地理观测数据方面,联合国统计委员会在总结各国实践研究的基础上,组织制定了“地理观测数据用于官方统计手册”[8],把大数据统计应用分析方法归纳为5种:经验方法,即传统统计模型方法;半经验方法,即在传统统计模型中加入不确定变量参数;数学方法,即基于复杂的信息系统建立精准的参数模型;对象分析方法,即对现场数据进行精准分类汇总;人工智能方法,即机器学习方法,利用各种算法对数据进行分类(如逻辑和多项式回归法、高斯最大似然法、贝叶斯网络法、分类树法、支持向量机法)、聚类(如K-均值法、凝聚聚类法、混合聚类法)、回归(如线性回归法、回归树法、神经网络)、降维(如主成分分析法、独立分量分析法)等。具体方法的选择取决于大数据特性、统计估计推断目标以及统计开发团队专业知识。国际上各种关于大数据统计应用手册和指南为各国政府统计机构应用大数据提供了理论依据、方法指导和最佳实践参考。
五、困难和瓶颈
在实际中,大数据的统计应用既有数据获取和质量上的困难,也有技术和方法上的瓶颈,它无法全部替代传统调查和统计分析。在推进大数据和政府统计工作融合过程中,既要防止“大数据傲慢”[8],因冒进和强推而损害政府统计工作的科学严谨权威,影响政府统计数据质量和社会公信力;又要防止放大大数据的应用风险,对大数据的统计应用持观望犹豫态度,从而导致应用进程缓慢。政府统计机构在大数据应用的试验研究和实践探索过程中,还面临许多困难和瓶颈。
1.大数据获取问题。
与传统调查数据不同,大数据是经济社会管理运行的副产品,往往为政府部门和私营部门所专有,因涉及隐私机密、数据转让、商业价值等敏感性问题,单靠政府统计机构和大数据提供者建立的双边自愿性合作伙伴关系难以维系,无法满足长期可持续的政府统计生产需要。实现大数据统计应用的合法化和合规性,畅通规范大数据获取渠道,增强大数据应用过程和目标的透明性,实行必要的隐私机密保护措施,是各国政府促进大数据应用战略必须解决的首要问题。
2.大数据质量问题。
大数据是随着网络系统、环境规则、社会行为等因素变化的动态产物,具有波动性大、真实性差和价值密度低等特征,因目标群体不明确、选择偏倚、累积误差、虚假相关、信息中断、高频数据不规则性和周期性模式等固有现象,数据存在较大的不准确、不完整、不可比、不一致、不连续、不稳定等诸多质量问题[9]。不是所有大数据都能用于政府统计,统计学并不接受大数据集更接近“真值”的命题,因为客观真值在很大程度上取决于大数据潜在总体的代表性以及大数据统计推断的过程和方法[10]。因此,政府统计应用大数据在某种情况下离不开、也替代不了传统调查数据。同时,应用大数据也意味着政府统计机构从数据的独立调查者变为依赖外部市场的数据用户,如果网络运营商、社交媒体集团等大数据提供者对数据质量有主观干预或者行为控制,则可能危及政府统计的客观独立性和社会公信力。质量是官方统计数据的核心,遵循官方统计质量基本标准,对大数据源进行质量评估,保持数据的客观独立性,是各国政府统计机构面临的难题。
3.大数据应用的技术问题。
大数据具有体量大、来源多样、生成快等特征,而且很多表现为非结构化数据,难以用传统数据体系结构进行有效处理,其采集、转换、清理、存储、处理等技术异常复杂,超出传统统计数据管理和处理能力,也超越现有统计基础设施的所及范围。大数据的统计应用不仅涉及自然语言处理、音频信号处理和图像处理等方面专业技能,还需要模式差异识别、机器学习算法、模型推算等方面专业知识。缺乏这些必要的技能和知识是目前阻碍政府统计应用大数据的主要约束因素。建立健全统计信息基础设施,开发大数据采集、转换、清理、存储、处理等现代技术系统,引进和培养兼具统计、信息技术和机器学习专门知识人才,提高大数据统计应用能力,是构建现代化政府统计体系的主要任务。
4.大数据应用的方法论问题。
大数据统计应用集信息技术、数据科学和统计方法于一身,涉及统计学、计算机科学、应用数据、经济学等多种学科,是政府统计的范式转变。大数据统计应用的理论方法框架在很大程度已突破传统统计理论方法范畴,甚至需要修改现有传统的统计概念和定义,才能解决基于大数据源的统计推断方法问题。大数据总体不等于统计目标总体,也不是目标总体的随机样本,很难应用传统统计理论方法来推断。目前许多国家大数据应用项目仍然利用传统的统计方法,应用结构化关系数据库和电子表格等传统统计工具。这一方面说明大数据统计应用的门槛没有想象的那么高,大数据应用方法不是深不可测和高不可攀的;另一方面也暴露了当前政府统计机构在大数据统计应用理论方法方面的欠缺,影响大数据源的有效挖掘和充分应用。破解大数据与政府统计融合的方法论问题,是政府统计机构在大数据时代所面临的新课题。
此外,大数据获取、处理分析需要投入相对高昂的人财物,开展成本效益评估也是政府统计机构在应用大数据时必须考虑的问题。为了帮助解决各国政府统计机构面临的上述诸多问题,联合国全球大数据工作组、国际货币基金组织、欧洲经济委员会等有关国际组织已经开始研制大数据质量框架、建立大数据统计应用案例共享平台、开展大数据统计应用技能方法培训,帮助各国特别是发展中国家降低大数据统计应用门槛,推动大数据在政府统计中的应用。
六、推进融合的路径
政府统计机构对统计信息的垄断时代已不复存在,只有通过 “设计的”传统数据源与“发现的”大数据源的相互融合组合,才能产生强大的统计信息系统,从而增强政府统计提供高效而有效的统计服务能力。推进大数据统计应用是未来政府统计的发展方向和必然趋势。自政府统计建立形成以来,曾经历了从普查到抽样调查的统计范式转变。可以预见,大数据统计应用是政府统计的又一次范式大变革,政府统计机构将从单纯的数据收集者转变为兼具不同数据源的融合者、数据源质量的评估者。大数据与政府统计工作融合预期将经历3个渐进的变化阶段:从短期看,普查、抽样调查等传统统计调查仍是政府统计数据的主要来源,而大数据则是政府统计的重要辅助来源;从中期看,在政府统计信息系统中,大数据的影响逐渐上升,而传统调查数据的影响有所减弱;从长期看,大数据源将部分(而不是全部)替代传统调查项目,最终实现大数据和传统调查数据优势互补、相互融合的目标。
近年来,我国政府统计机构确定了“总体设计、牵头攻关、先易后难、专业突破”的总体思路和“打造政府统计数据来源第二轨”的工作目标[11],加快促进大数据与政府统计工作融合,扎实推进大数据在政府统计中的应用,已取得重大成果。在大数据获取方面,积极与各政府部门合作建立数据共享机制,与大数据相关企业签署大数据战略合作框架协议,利用行政记录和企业大数据补充完善政府统计;在大数据统计应用方面,几乎所有专业统计领域利用不同类型的大数据源进行数据补缺、校验、评估、推算等。我国在利用遥感图像和地面定位技术系统完善农作物播种面积和产量估计方面已处于世界领先水平。大数据作为政府统计数据的重要补充来源,对提高政府统计的科学性、准确性和时效性发挥积极作用。但是与全球大数据应用程度相比,我国部分专业统计领域应用大数据的力度有待进一步加强,大数据统计应用的技术方法研究有待进一步深入,大数据统计应用能力和水平有待进一步提高,推进大数据与政府统计融合的任务依然艰巨。为此,应制定大数据统计应用的路线图,明确融合路径,加快构建现代化政府统计体系步伐。
1.建立健全大数据应用的法律规范和数据共享开放的机制制度,为政府统计应用大数据营造良好的环境保障。
一是完善各类大数据应用的隐私机密保护和安全保障立法机制,既要保证数据信息安全可控,又要明确相关主体提供大数据源的法律义务,为大数据在政府统计中的应用奠定基础。二是充分利用“五证合一”改革成果,健全部门信息标准化机制和信息共享机制,不断提高电子化的行政记录数据在政府统计中的利用程度。三是打造政府统计部门与企业、社会团体之间大数据开放共享平台,畅通大数据获取渠道,实现大数据与传统调查数据的相互连接、相互补充。
2.制定大数据统计应用工作规划,提高适应大数据时代的综合统计能力,充分挖掘利用大数据的统计价值。
一是建立适应大数据特征的信息技术基础设施,提高大数据采集、存储、处理、分析能力;二是研制不同类型的大数据统计推断方法理论方法框架,开发大数据统计应用技术工具、大数据质量评估框架,增强大数据统计应用的严谨性和有效性;三是建立大数据应用库,收集各种类型的大数据资料,鼓励相关单位开展开发应用研究;四是建立与政府、企业、学术界与统计界的多学科合作伙伴机制,提高研究和解决大数据统计理论方法和实际应用技术问题的能力;五是引进和培养大数据统计应用人才,组建涵盖统计方法、数据科学、信息技术等专家的大数据统计应用研究团队,分工协作,联合攻关。
3.以专业项目为抓手,先易后难,专业突破,稳步推进大数据与政府统计工作的深度融合。
可先从扫描价格数据、网络抓取价格数据、移动手机数据、卫星遥感数据等数据源相对稳定、质量相对较好、有一定经验基础的大数据类型入手,设置不同专业领域研究试验小组,跟踪观察不同类型大数据的变化特征,深入探索大数据采集、清理、过滤、存储、评估、分析等环节的技术工具和手段,系统研究大数据应用统计理论方法,认真评估大数据的统计推断结果,不断总结,反复试验,最终形成大数据在各个专业统计领域的应用手册和最佳实践指南。本着“成熟一个推广应用一个”原则,把大数据的统计应用落实到每一专业统计工作中,真正实现大数据与政府统计工作交互融合。
4.加强国际合作,借鉴国际先进经验做法,提升我国政府统计应用大数据的能力和水平。
大数据统计应用是世界统计发展趋势,也是当前各国政府统计机构面临的共同难题。近年来,有关国际组织和国家加大大数据统计应用研究力度,在大数据质量评估、部分专业领域的应用技术方法等方面取得突破性进展,积累了许多有益的经验。一要密切关注国际上关于大数据统计应用的最新动态和成果,认真研究,及时消化吸收借鉴;二要通过研讨、培训、项目合作等方式,积极主动地开展国际合作交流,共享知识经验,不断提高我国大数据统计应用在国际上的影响力。
参考文献
[1] UNECE Task Team. Classification on Big Data [EB/OL]. UNECE Wiki, June 2013.
[2] 国家统计局, 国家发展改革委. 非传统数据统计应用指导意见[EB/OL]. 国统字[2017]160号.
[3] Buono D, Mazzi G L, Marcellino M, et al. Big data types for macroeconomic nowcasting [J]. Eurostat Review on national accounts and Macroeconomic indicators, 2017(1): P93-145.
[4] UN Statistical Commission. Report of the 2015 Big Data Survey [EB/OL]. Forty-seventh session 8–11 March 2016 Item 3(c) of the provisional agenda Big Data for official statistics.
[5] 国际货币基金组织. 消费者价格指数手册: 理论与实践[M]. 中国财政经济出版社, 2008: 12-21.
[6] Office for National Statistics of UK. Research indices using web scraped price data: clustering large datasets into price indices (CLIP) [EB/OL]. 30 November 2016.
[7] Eurostat. Practical Guide for Processing Supermarket Scanner Data [A]. 2017.
[8] UN Satellite Imagery and Geospatial Data Task Team report, Earth Observations for Official Statistics [A]. December 2017.
[9] Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis [J]. Science, 2014, 343(6176): 1203.
[10] 余芳东. 非传统数据质量评估的国际经验及借鉴[J]. 统计研究, 2017(12): 15-23.
[11] Tam S, Clarke F. Big Data, Statistical Inference and Official Statistics [J]. International Statistical Review, 2016, 83(3): 436-448.
[12] 马建堂. 大数据: 政府统计的新机遇[M]. 北京: 中国统计出版社, 2015: 125-131.
作者简介:
余芳东,女,浙江台州人,现为国家统计局统计科学研究所三级职员,研究方向为经济统计和国际比较统计。