经济普查全国数据库优化方案

国家级经济普查数据库面临大数据量处理挑战,包括导入导出、查询速度慢、数据不一致等问题。文章提出减少数据冗余、改变主键、清除垃圾数据等优化措施,旨在提高数据库效率和数据一致性。通过优化,可以提升数据处理、查询和统计的速度,确保系统性能。
摘要由CSDN通过智能技术生成

  随着各省、自治区、直辖市(以下简称:各省级单位)的第一次全国经济普查(以下简称:经济普查)数据上报工作接近尾声,国家级数据处理工作正大规模地展开,经济普查全国数据库的建设也被提上日程。国家级数据处理的主要任务包括下面几项:

  1给各省级单位报送的数据建立处理环境,执行统一的审核、汇总程序,并将结果与同时上报的审核错误清单和汇总数据进行比较,如果两者不同或有其他问题,通知原报送单位重新报送;

  2将各省级单位报送的数据合并到一个处理环境中,执行各专业要求的审核、汇总程序,并由各专业做进一步的审核、查询得出最终确定的数据集。将来在此数据集基础上可以构建全国基本单位名录库和其他专业的全国数据库,提供给各级政府统计部门、其他政府部门和科研机构使用,即建立经济普查全国数据库。

  3按处理地从全国处理环境中合并导出各省级单位数据并建立独立的处理环境,再次分别执行统一的审核、汇总程序,并由各专业确认无误后反馈各地区。

  国家级数据处理的流程和省级、地(市)级没有本质的差别,国家级和省级处理的最明显差别是数据量上的差别,填报目录(法人单位+产业活动单位)记录超过了700万条,其他30余张专业基层表的记录从几十万到数百万不等。因此,实现快速地从如此大容量的数据库中提取数据(查询)、分析、统计以及提取数据后进行数据展示,已成为亟待解决的难题。

  经济普查数据汇集到国家级的时候,数据库的性质已经逐渐地发生了改变,从一个联机事务处理(OLTP)系统转变为一个决策支持(DSS)系统。联机事务处理系统有大量的用户同时连接,并发操作很多,有大量的数据增删改,而每次更改涉及的记录数较少,对系统的响应时间要求较高。决策支持系统是大数据量的查询,大批量的数据导入和导出,涉及的记录数很多,对系统的响应时间要求不太高,但是对一个长时间操作耗费的总时间要求提高。

  由于两种类型系统应用特点的巨大差异,在联机事务处理系统中有效率的设计,在决策支持系统中变得不再有效率,需要进行分析、调整、优化。

  在国家级数据处理过程中,我们遇到了诸多的问题,例如:数据导入、导出、审核、汇总、查询速度慢;按某个指标分组的总计数据和分项数据之和不相等;执行各种操作占用的计算机资源过大等。下面针对上述问题,按产生的原因分别归纳出以下几项优化内容。

  一、减少数据冗余提高空间使用效率

  在数据采集阶段,调查对象的数据的一些统计特征,例如某专业基层表的填满率,数据量地区分布等是未知的,尽管可以从历史数据中获得某些信息,

  但全国的统计特征信息不一定适用于地方,因此数据采集系统中不需要考虑数据的统计特征。数据汇集到国家级后,即使个别数据还会进行订正、增补,但总体来说,数据的整体特征已经固定&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值