目录
4. 地理信息系统数据输入
数据采集和输入是一项十分重要的基础工作,是建立地理信息系统不可缺少的一部分。没有数据的采集和输入,就不可能建立一个数据实体,更不可能进行数据的管理、分析和成果输出。准确实时的数据是建立地理信息系统的前提条件。因此必须认真对待数据采集和输入,数据选择要确保数据真实,除了一些不可避免或无法预料的原因外,输入的数据应力求准确,否则将会影响最终成果的分析和正确评价。通常情况下数据的采集、标准化、综合和自动录入是GIS数据采集的主要功能。
4.1. GIS数据来源
地理信息系统的数据来源非常广泛。既有通过传统手段野外实测获得,也有通过航天航空遥感、航测、全球卫星定位系统(GPS)等现代技术获得。不同的资料提供了不同形式的信息,不同的信息输入计算机和计算机处理的方法也不相同。大部分非数字信息主要是通过矢量和栅格两种编码方式变成计算机可以接受的数字形式,送入计算机的数据库中存储。一些常规的统计数据、文字或表格等也可根据需要送入相应的数据库中。数据采集必须根据GIS建立的内容、目的和用途来决定搜集的范围和种类。
4.1.1. 地图数据
地图数据是地理信息系统的主要的数据来源。地图的种类不同,研究的对象不同,应用的部门不同,图件编制的内容也不同。按内容划分,包括各种比例尺的普通地图和专题地图。普通地图是以相对平衡的详细程度表示地球表面上的自然地理和社会经济要素,主要表达居民地、交通网、水系、地貌、境界、土质、植被等。实测的或较大比例尺的地形图具有较高的几何精度,真实反映区域地理要素的特征。专题地图重点反映某一种或几种专门的要素,对于各种不同比例尺的专题地图,常常提供如地质、地貌、土壤、植被和土地利用等原始资料,地图为了便于输入可将其分解为点、线和面三个基本要素。图件的内容,可以采用不同的编码方式,使用不同的处理设备。
4.1.2. 遥感图像
遥感数据为地理信息系统的重要信息源。遥感数据(影像数据)是GIS的重要数据源。遥感数据含有丰富的资源与环境信息,在GIS支持下,可以与地质、地球物理、地球化学、地球生物、军事应用等方面的信息进行信息复合和综合分析。遥感数据是一种大面积的、动态的、近实时的数据源,遥感技术是GIS数据更新的重要手段。遥感数据用于提取线划数据和生成数字正射影像数据(DOM)、DEM数据等。遥感数据对GIS硬件和软件要求较高,在硬件上应选择扩展型配置,在软件上需解决矢量数据和栅格数据的兼容和互换问题。ARC/INFO、ERDAS、MAPGIS等地理信息系统软件已具备两种数据结构互换功能。
4.1.3. 测量数据
在没有所需的地图或遥感影像数据的情况下,就需要通过野外测量或使用GPS采集数据作为GIS的输入。野外测量的目的在于确定测量区域内地理实体或地面各点的平面位置和高程。测量前,需预选出地面上若干个重要点作为控制点,精确地测算出它们的平面位置和高程,以此作为控制和依据,详细测量其他地面各点或地理实体及其空间特征点的平面位置和高程。野外控制测量可使用传统的测量仪器,如经纬仪(theodolite)、水准仪(1evel)和视距仪(stadia),测量方位、角度和距离,测量的数据记录在笔记本上,然后输入计算机,用程序将方位、角度相距离转换成平面坐标和高程,这类程序称为COGO(coordinate geometry)。COGO程序可以将数据写成GIS可以阅读的数据格式,从而将它们直接输入到GIS中。现代测量仪器,如带有电子测距仪和数据记录仪的经纬仪、手持激光测距仪(laser range finder),则可以获取更高精度的测量数据,便可以GIS能阅读的格式言接以数字形式存储测量数据。
4.1.4. 数字资料
对于各种数据形式的原始资料,包括社会经济数据、人口普查数据、野外调查或监测数据,例如环境污染监测数据,地质钻井数据,磁力、重力、地震等地球物理数据,气象、水文观测数据等。统计数据一般都和一定范围内的统计单元或观测点联系在一起的,因此搜集这些数据,要注意包括研究对象的特征值、观测点的几何数据和统计资料的基本统计单元。统计数据是GIS建立属性数据库必不可少的资料,常常在分析中起着重要的作用。我国统计工作正朝信息化方向发展,除以传统的表格方式提供使用外,局部的已建立起各种规模的数据库,数据的建立、传送、汇总开始使用计算机。各类统计数据可由计算机键盘有组织地输入,也可用光盘或软盘作为介质将数据送入计算机,如果将统计数据转变成图形形式显示出来就更加直观。在地理信息系统中统计数据存储在属性数据库中,常可与其它形式的数据一起参与分析。
4.1.5. 文字报告
在土地资源管理信息系统、灾害监测信息系统、水质信息系统、森林资源管理信息系统等专题信息系统中,各种文字说明资料,对确定专题内容的属性特征起着重要的作用。在区域信息系统中,文字报告是区域的综合研究不可缺少的参考资料。通过文字报告还可以用来研究各种类型地理信息的权势性、可靠程度和内容的完整性,以便决定地理信息的分类和使用。文字说明资料是地理信息系统建立的主要依据,必需认真加以研究,准确送入计算机系统,使搜集资料更加系统化。
4.2. 数据规范化和标准化
现代信息社会数据共享是一个最基本的特点。GIS数据规范化和标准化直接影响地理信息的共享,而地理信息共享又直接影响到GIS经济效益和社会效益。为了解决利用已有数据资源并为今后数据共享创造条件,各国都在努力开展标准化研究工作,许多部门和单位都在纷纷建立自已的数据库。国家制定的规范和标准是信息资源共享的基础,任何标准和规范,不但有利于国内信息交流,也有利于国际信息的交流。但是目前空间数据标准化仍然存在不少问题,还缺乏统一的标准和规范,缺乏地理信息的法规,各部门间缺乏必要的联系和协调,对于科学的分类和统计缺乏严格的定义,建立的系统,数据杂乱,难以相互利用,信息得不到有效的交流和共享。为使数据库和信息系统能向各级政府和部门提供更好的信息服务,实现数据共享、数据规范化和标准化建设是一项十分紧迫的任务。
4.2.1. 统一的地理基础
地理基础是地理信息数据表达格式与规范的重要组成部分。它主要包括统一的地图投影系统、统一的地理坐标系统以及统一的地理编码系统。通过投影坐标、地理坐标、网格坐标对数据进行定位。各种来源的地理信息和数据在共同的地理基础上反映出它们的地理位置和地理关系特征。
地理信息系统之所以区别于一般的信息系统,就在于它所存储记录、管理分析、显示应用的都是地理信息,而这些地理信息都是具有三维空间分布特征且发生在二维地理平面上的,因而它们需要有一个空间定位框架,即共同的地理坐标和平面坐标系统。所以说统一的坐标系统是地理信息系统建立的基础。
4.2.2. 统一的分类编码原则
现代科学技术日新月异,除了传统的学科外,产生了很多边缘学科和交叉学科。各学科信息丰富多彩,因此,把数据输入计算机建立GIS,必须以明确的分类标志、统一的标准,对信息进行分类编码。分类过粗会影响将来分析的深度,分类过细则工作量很大,计算机存贮量很大。分类编码应遵循科学性、系统性、实用性、统一性、完整性、可扩充性等原则,既要考虑信息本身属性,又要顾及信息之间的相互关系,保证分类代码稳定性和唯一性。国家规范组建议信息分类体系采用宏观的全国分类系统与详细专业系统之间相递归的分类方案,即低一级的分类系统必须能归并和综合到高一级分类系统中去。
4.2.3. 数据交换格式标准
数据交换格式标准是规定数据交换时采用的数据记录格式,主要用于不同系统之间数据交换。GIS软件或数据并不是一次性的,也不是一个小部门单独使用,而是多次使用,相互共享。一般属性数据库仅有几种固定的数据类型,如事务管理系统,因此数据转换问题比较简单。但是空间数据与之不同,除了起说明作用的属性数据外,还有起定位作用的空间数据,因此数据共享异常复杂。但是总的原则是: 制定的数据交换格式应尽量简单实用,能独立于数据提供者和用户的数据格式、数据结构和硬软件环境,数据格式应便于修改扩充和维护,便于同国内外重要的GIS软件数据格式进行交换,保证较强的通用性。GIS要从项目应用走向企业应用和社会,在当前GIS软件数据格式较多的情况下,应制定一个数据交换格式标准,并将国家的基础空间数据转换成这一标准,逐步向全国各行业推广。
4.2.4. 标准的数据采集技术规程
我国现已研究和制定了两个技术规程: 图形数据采集技术规程和摄影测量数据采集的技术规程。规程中对设备要求、作业步骤、质量控制、数据记录格式、数据库管理及产品验收都作了详细规定。在地矿系统GIS应用中,还应研究和制定遥感影像数据采集技术规程、地质数据采集技术规程等。
4.2.5. 数据标准化所面临的问题
数据标准化问题虽然被许多有远见的科学家从一开始就提出来了,而且随着地理信息系统广泛应用,这种标准化要求的呼声不断提高,其目的在于使地理数据得以在更广大的范围内共享。但是,数据标准化问题直接受到传统地理学研究成果的制约,许多概念上的争论,例如土壤分类、地貌分类、土地利用分类等等,已经讨论了几十年,有的已基本上统一了认识,例如发表了1∶1 000 000地貌图制图规范,1∶1 000 000土地利用制图规范,而土壤分类未有任何统一的结论。分类问题不解决,制定数据标准也就失去了基础,企图依靠地理信息系统技术来统一认识显然是实现不了的。但是,每一个地理信息系统,必须设计自己的数据标准,这样就造成了目前地理数据的共享问题在我国显得十分困难。
数据标准化面临的另一个重要问题是数据模型的标准化。世界上最著名的几个地理信息系统软件,采用了完全不同的数据模型,例如ARC/INFO使用了网络和关系的混合模型,TIGER系统采用的拓扑结构有其自己的特点。它们对数据模型化的处理方法截然不同,反映了对地理实体的认识差异。这两类系统均拥有广大用户,这种事实表明了要实现数据模型的标准化为期更远。但是,我们看到了这样的事实,即数据模型的不统一并没有限制数据共享,因为在众多的系统中都开发了能接受外部数据的软件,即数据格式转换软件;同时某些公认的数据格式,例如DXF,Line Postscript等等,正在形成数据交换的国际标准。
4.3. 数据输入
数据输入是对GIS所管理、处理的数据进行必要编码和写入数据库的操作过程。任何GIS都必须考虑空间数据和属性数据(非空间数据)两方面数据的输入。由于GIS数据种类繁多,精度要求高而且相当复杂,加上受到计算机发展水平的限制,在相当长一个时期内,手工输入仍然是主要的数据输入手段。随着计算机、通讯等信息技术的不断发展,数据采集和输入方式也呈现出多样化,而且数据采集和输入的自动化程度也越来越高。当然,GIS数据采集和输入需要投入极大的工作量,几乎占据建立整个系统工作量的一半以上。GIS应用致命问题是所有输入的数据都必须转换为与特定系统数据格式相一致的数据结构,因此迫切需要通过先进的计算机全自动录入或数据采集技术为GIS提供可靠的数据。现在已经形成标准数字地理数据集合格式,数据转换的自动方法已经开始使用,数据采集的数字方法已能直接用于产生数字文件。
4.3.1. 野外数据采集
平板仪测量
平板仪由平板和照准仪组成。平板又由测图板、基座和三脚架组成;照准仪由望远镜、竖直度盘、支柱和直尺构成。其作用同经纬仪的照准部相似,所不同的是沿直尺边在测图板上画方向线,以代替经纬仪的水平度盘读数。平板仪还有对中用的对点器,用以整平的水准器和定向用的长盒罗盘等附件。平板仪测图实质上是一个光学模拟过程,即靠的是光学仪器,手工操作实现对中,整平,定向、照准、画线、描图等一系列制图作业方式,一切完全靠手工操作,野外劳动强度大,生产作业经费较高,同时由于受仪器设备的限制,对高差大及老城区复杂的地形适应性差。其作业方式如图4-1所示。平板仪测图的成果一般是一张图纸。因此,需要通过各种输入设备(如扫描仪或数字化仪)完成图数转化的过程,将图形信号离散成计算机所能识别和处理的数据信号,然后输入到GIS中进行管理。
全站仪测量
全站型电子速测仪简称全站仪,它是一种可以同时进行角度(水平角、竖直角)测量、距离(斜距、平距、高差)测量和数据处理,由机械、光学、电子元件组合而成的测量仪器。由于只需一次安置,仪器便可以完成测站上所有的测量工作,故被称为“全站仪”。全站仪包含有测量的四大光电系统,即水平角测量系统、竖直角测量系统、水平补偿系统和测距系统。通过键盘可以输入操作指令、数据和设置参数。以上各系统通过I/O接口接入总线与微处理机联系起来。微处理机的主要功能是根据键盘指令启动仪器进行测量工作,执行测量过程中的检核和数据传输、处理、显示、储存等工作,保证整个光电测量工作有条不紊地进行。输入输出设备是与外部设备连接的装置(接口),它使全站仪能与磁卡或微机等设备能进行交互通讯、传输数据。全站仪配合电子手薄便携机等进行外业数据采集,然后把外业采集的数据通讯到计算机中去,利用相关的绘图软件加以处理自动生成地物、地貌。同时把外业采集的各种特征点的数据保留下来以利于修改。其作业方式如图4-2所示。
GPS测量
近年来,GPS已越来越多地应用于GIS的野外采集数据源。GPS地面接收器(现多为手提式)根据来自GPS卫星的信号计算地面点的位置。普通GPS接收器的精度在10米到25米之间,差分式(differential)GPS技术则可以测得精度非常高的数据。差分式GPS技术使用两台GPS接收器,一台安置在已知精确坐标数据的地点、称为参考站(base station),一台则用于量测地面未知点,称为使用者接收器(roving receiver)。如果两台GPS接收器以相同的方式设置,使用同样的几颗卫星计算位置,那么它们记录的位置误差应当是相等的,根据地面参考站接收器接收的数据计算误差,将使用者接收器获取的数据减去这一误差就可获得很高精度的位置数据,一般可达到厘米级的精度。大多数GPS接收器将采集的坐标数据和相关的专题属性数据存储在内存中,可以下载到计算机利用其他程序作进一步的处理,或直接下载到GIS数据库中,许多还可以将坐标数据直接转换成另一地图坐标系统或大地坐标系统。使用GPS,可以在行走中或驾车采集地面点的坐标数据,为GIS的野外数据采集提供了灵活和简便的工具。
4.3.2. 地图数字化
空间数据主要指图形实体数据。空间数据输入则是通过各种输入设备完成图数转化的过程,将图形信号离散成计算机所能识别和处理的数据信号。通常在GIS中用到的图形数据类型包括:各种地图、航天航空像片、遥感数据、点采样数据等。应该注意的是没有统一而简单的方法来输入这些图形数据,只有一些普遍适用的方法供GIS用户选择使用。用户可以依据如何应用图形数据、图形数据的类型、现有设备状况、现有人力资源状况和经济状况等因素综合考虑,选用单一方法或几种方法结合起来输入所需要的图形数据。
空间数据的采集可以说是长期制约地图数据库与地理信息系统建设的“瓶颈”,也是当前国内外研究的热点和难点。实现空间数据的快速采集与更新,必须解决三个问题:一是图形图像识别的智能化;二是多种信息源数据采集的技术集成;三是数据资源的共享。其中,难度最大、最迫切需要解决的是第一个问题。
目前,图形图象识别的智能化已有一些进展,尤其是已有一批扫描地图数字化软件投入市场,并得到广大用户的认可。栅格数据矢量化的算法思想也有所突破,还出现了可对彩色图象进行矢量化的软件(如MAPGIS软件就有此功能)。但目前对特殊线型的矢量化,对有交叉线的矢量化还不够尽人意,有待进一步研究。
扫描仪简介
除少数特殊产品外,绝大多数扫描仪是按栅格方式扫描后将图像数据交给计算机来处理。扫描仪可分为滚筒式(卷纸)、平板式、CCD直接摄像式三种,其中大幅面的地图以滚筒(卷纸)式用得最多。目前市场上常见的A0幅面的滚筒式单色分灰度扫描仪的分辨率为400~800dpi(即每英寸400~800点,大约相当于每毫米15~30点),这比手扶跟踪数字化操作的精度要高。普通的扫描仪大都按灰度分类扫描,高级的可按颜色分类扫描。
因光学、电子、机械技术的发展和相互作用,扫描仪的成本正在迅速下降,但扫描仪要比数字化仪昂贵得多。
扫描数字化前准备
① 原图准备
由于扫描数字化是采样头对原图进行扫描,凡扫到需要色(对黑白地图来说,黑色为需要色,对彩色地图来说,对哪种颜色扫描,那种颜色就叫需要色)就记录一个数(例如“1”),扫到不需要色就记录另一个数(例如“0”)。为提供扫描数字化,首先要选择色调分明,线划实在而不膨胀的地图作为原图;其次要在图上精确划定数字化的范围,标出坐标原点;最后要清理图面,如修净污点,连好线划上的断头。这样才可固定在滚筒(滚筒式扫描机)或平台(平台式扫描机)上,作为扫描原图。
② 选择数据记录格式
扫描数字化仪的数据记录格式有两种,一种是数字格式,也就是每个网格记录一个二进制数“0”或“1”,它适用于对黑白或彩色线划地图数字化;一种是连续格式,每个网格记录一个灰度值(0~255个灰阶),这适用于对像片数字化。因此要根据原图的形式选择数据记录格式,并在控制柜的面板上安排好。
③ 选择光孔的孔径
扫描仪采样头中透光孔的孔径有好多规格,例如:12.5μ×12.5μ、25μ×12.5μ、50μ×25μ、50μ×40μ、100μ×100μ等。
(μ(微米)=1/1000毫米),它用来控制网格的大小,也就是用以控制分辨率,孔径越小,网格就越小,分辨率就越高,数据量也就越大。根据地图的精度要求,应选择具有一定的分辨率,数据量又不致过大的孔径。通常选择100μ×100μ(或50μ×40μ)的孔径,即地图上0.1毫米粗的线划一般只占1至2个网格。
④ 计算坐标差
当原图经过定向,固定在滚筒(或平台)上之后,要算出扫描仪原点和原图原点之差,以便控制记录装置。
栅格扫描数据到矢量数据的转化
栅格到矢量的转换计算主要用于将像元阵列变成线数据,将栅格扫描数据变成文本和线划,当栅格数据用笔式绘图仪输出时,也需首先转换成矢量数据。
从扫描仪输出的数据由一系列记录图像存在或不存在的像元组成。这种数据的矢量化处理比一般栅格数据的矢量化处理要复杂些。首先要用一种统称为细化处理的算法在扫描得到的密集像元形成的“肥胖”线划中贯通一条细线,此线被认为是原图上的线。其次细化处理时产生的线还包括比实际需要多许多的坐标对,还须用“剔除”算法去掉,以节省宝贵的存贮空间。同时还要人机交互式地处理线划间断、重叠等问题。
普通线化地图的扫描后矢量化,其处理过程大致如下(图4-3)。
-
对扫描后的图像作手工编辑,去掉不需要的要素杂点,不清楚的地方作简单修补。
-
由软件将栅格数据转换成矢量(线化)数据,同时进行灰度、颜色、符号、线型、注记的识别,这一处理过程(特别是符号、注记的识别)往往花费较多的计算时间。
-
再由手工对转换后的矢量图形进行编辑,使之符合GIS数据库的要求。
其它类型的自动数字化仪器
为了满足大量幅面大、内容又复杂的数字化材料的快速数字化要求,在上述扫描仪的基础上发展了一些新型数字化仪器。人们之所以对自动扫描如此感兴趣,主要原因是在一定程度上来说数字化是传统制图过渡到数字成图的重要问题之一。
(1)视频数字化仪
到目前为止已研制了多种简单的视频数字化仪,主要用于数字化航片上判读出来的边界信息,或者将整张航片栅格化处理。这些数字化仪包括与微电子装置连接在一起的视频摄像机,把电视画面的模拟量转变成栅格化数字影像。
这些简单的视频数字化仪,主要用于航片上道路和其它线性物体的数字化,数字化结果直接输入遥感图像分析系统。
(2)解析测图仪
用立体测图仪自动获取数据的第一次改进是在机械绘图桌上装上电子机械X、Y、Z记录器,再将记录器与纸带穿孔机连接把记录到的数据穿孔,立即得到三维坐标,立体测图仪也就变成了三维数字化仪。这种初级三维数字仪初次尝试取得一定的成功后,完全新型的解析测图仪发展起来了,用这类仪器不仅能记录三维坐标,还能通过连网的微机处理比例尺变形和其它制图变形,处理后的数据以直接处理的形式记入硬盘上。这类仪器的应用正在增加,是三维数据获取的最佳方式,除用于测图外,还能与综合制图系统接口。
4.3.3. 数字摄影测量
传统的摄影测量是利用光学摄影机获取的相片,经过处理以获取被摄物体的形状、大小、位置、特性及其相互关系的一门学科。现代数字摄影测量是对非接触传感器系统获得的影像及其数字表达进行记录、量测和解译,从而获得自然物体和环境的可靠信息的一门工艺、科学和技术。摄影测量的发展经历了模拟摄影测量、解析摄影测量和数字摄影测量三个阶段。
模拟摄影测量这一发展阶段是从1851年到1970年,它是利用光学或机械投影方法实现摄影过程的反转,它通常用两个或多个投影器模拟摄影机摄影时的位置和姿态构成与实际地形表面成比例的几何模型,通过对该模型的量测得到地形图和各种专题图。其作业流程如图4-4所示,因此,由模拟摄影测量得到的地形图和各种专题图需要进行数字化后输入到GIS数据库中。
随着计算机技术的发展,摄影测量由模拟法逐渐向解析法过渡。解析摄影测量是以电子计算机为主要手段,通过对摄影相片的量测和解析计算方法的交会方式来研究和确定被摄物体的形状、大小、位置、性质及其相互关系,并提供各种摄影测量产品。德国人斯密特于20世纪50年代建立了解析摄影测量的基本理论,这一理论随即应用于解析空间三角测量。解析空中三角测量能很好地处理像点坐标的系统误差和粗差,保证了成果的高精度和高可靠性。另外,1957年美国的海拉瓦提出了解析测图的思想,并于60年代初研制成第一台解析测图仪。解析测图仪是根据数学关系式来建立立体模型,可以预先作各种系统误差的改正,而且它可以处理各种类型的像片,扩展了摄影测量的应用领域。其作业流程如图4-5所示,由解析摄影测量得到的数字线划地形图和数字高程模型可以直接输入到能支持该数据格式的GIS数据库中,由解析摄影测量得到的影像地图等非数字产品需要进行数字化后才能输入到GIS数据库中。
随着计算机技术的进一步发展和数字图像处理、影像匹配、模式识别等技术在摄影测量领域的应用,摄影测量开始进入数字摄影的测量阶段。它通过对所获取的数字或数字化影像进行处理,自动提取或人工干预的方式提取被摄对象,并用数字方式表达的几何与物理信息,从而获得各种形式的数字产品和目视化的产品。美国于20世纪60年代初研制成全数字自动化系统DAMC,它是把模拟的像片进行扫描转换成由灰度表示的数字影像,利用了计算机代替人眼进行立体观测,实现摄影测量的自动化。数字摄影测量与模拟、解析摄影测量的区别在于它不再依赖精密而昂贵的光学和机械仪器,处理的原始资料是数字影像或数字化影像,处理过程中以计算机视觉代替人眼进行立体观测,实现几何信息和物理信息的自动提取,其产品的形式是数字的,包括数字地图、数字地面模型、数字正射影像和数字景观图等。其作业流程如图4-6所示,由解析摄影测量得到的数字线划地形图、数字高程模型以及数字影像图可以直接输入到能支持该数据格式的GIS数据库中。
4.3.4. 遥感影像处理
遥感是在不直接接触的情况下,对目标物或自然现象远距离感知的一门探测技术。具体地讲是指在高空和外层空间的各种平台上,运用各种传感器获取反映地表特征的各种数据,通过传输、变换和处理,提取有用的信息,实现研究地物空间形状、位置、性质及其与环境的相互关系。将遥感技术与计算机技术结合,使遥感制图从目视解释走向计算机化的轨道,并为GIS的地图更新、研究环境因素随时间变化情况提供了技术支持,也是GIS获取数据源的一个重要手段。
由于遥感影像获取的平台、方式等各异,会出现各种各样的误差,不同的应用中所关心的对象不一,因此遥感影像必须通过计算机进行一定的处理才能为GIS等软件应用。利用计算机进行遥感图像处理的图像必须是数字图像,以摄影方式获取的模拟图像必须用图像扫描仪等进行模/数(A/D)转换;以扫描方式获取的数字数据必须转存到一般数字计算机都可以读出的CCT等通用载体上。遥感影像处理系统是由硬件(计算机、显示器、数字化仪等等)和软件(具有数据输入、输出、校正、变换、分类等功能)构成,影像处理的内容主要包括校正、变换和分类等。其中校正有几何校正和辐射校正,图像变换主要是用于改善图像视觉效果的增强处理和便于进行图像判读及分析特征提取处理,图像分类主要是利用物体的光谱特性对单个像元或比较匀质的像元组给出对应其特征的名称。这样,遥感影像经过相应处理后可直接输入到GIS数据库中进行管理。
4.3.5. 现有数据转换
任何信息系统总要利用已有数据,以减轻信息收集、编码、输入的工作量。除了利用本单位、本部门的现成资料外,常用的、通用的数据供社会共享已成为一种趋势。特别在发达国家,有很多政府机构或私人公司已经开始向社会公开提供数据服务,这种服务大致有五类信息:基本数字化地图、自然资源数据、地面数字高程、遥感数据、与人口统计相结合的空间、属性、地址数据。这些数据服务可以减少在数据收集与数据输入方面多付出的劳动,对GIS普及将起到了有力的促进作用。
现有的数据转换输入从计算机的角度来看难度虽不大,但在技术上须解决分类、编码、格式等标准化问题。特别是卫星遥感得到的数据,其格式不一定与资源环境信息系统数据库的一致,还需进行各种必要的预处理才能输入数据库。这些预处理包括调整分辨率和像元形状、地图投影交换、数据记录格式等,使数据保持与数据库的要求一致。还有一个特殊问题是与地形数据如道路、各类边界的匹配和定向问题,特别是早期的低分辨率卫星图像的定向。虽然可以从陆地卫星图像上推知它的定向和定位元素,但因像元过于粗大而不能精确定位,与其它数据配合使用应注意分辨率的匹配。预处理可能包括数据简化处理,例如把几个波段简单地合成或其它基本变换多波段数据组合在一起,然后进行土地利用或其它类别的分类,最后把分类结果输入数据库可大大减少数据容量,这样的预处理操作是在图像分析系统中进行的。
4.4. 数据质量
质量本来就是一个难以捉模的概念。空间数据质量是指空间数据可靠性和精度,通常用空间数据误差来度量。人们往往认为,以计算机为基础的信息系统的数据质量是可靠的。很少怀疑利用信息系统产生的分析结果在数据质量方面会有问题,但事实远非如此。在某些情况下,由于多种原因,计算机分析结果甚至会比手工分析的误差更大。这是除软件、硬件的质量,计算方法上的问题,以及分类、编码、输入、操作上的明显疏忽以外,数据本身的质量也是重要的原因。GIS主要功能之一是综合不同来源,不同分辨率和不同时间的数据,利用不同比例尺和数据模型进行操作分析,这种不同来源数据的综合和比例尺的改变使GIS数据误差问题变得极为复杂。
4.4.1. 数据质量问题
微观方面数据质量问题
(1)定位精度
定位精度是指GIS的空间坐标数据与其真实的地面位置之间的误差。这种误差主要有两种:第一种是偏差。偏差是描述真实位置与表达位置偏移的距离。可在地图上抽取某些要素,用这些要素在数据库中的坐标值和对应物体的实测坐标进行比较,据此来判断偏移是否过大。理想的偏差应为零,表明图上位置与实际位置没有系统偏差。第二种是偏移的分布。如果上述抽样点的偏移量在某些地方很小,另一些地方很大,则说明偏移的分布不均匀,数据质量不稳定。如果各个点的偏移量都差不多,虽然总量并不很小,但分布比较均匀,这说明数据的质量还比较稳定。位置精度常采用标准差和均方差来度量。
(2)属性精度
属性精度是指属于地理数据库中点、线、面的属性数据正确与否。属性定义往往也会有误差,除人为因素外,还有技术因素,属性误差度量取决于数据的类型。对于分类数据(如土地利用等级、植被类型、陆地覆盖层、土壤类型或行政管理分区等)的精度估算,主要取决于分类精度估计。分类精度的估计是一个复杂和持有争论的问题,分类精度估计的困难主要是对精度具有有效影响的因素如分类数目、独立区域的形状和大小、测试点的选择方式、以及分类的彼此混类现象等不能很好确定。分类精度估计常采用纯量精度指标或“分类误差矩阵”。分类误差矩阵C是采样点属性的真值和估值所组成的表格,其元素Cij代表被认为是i类但实际上是j类的点的数目,它是一种总体精度指标。根据误差矩阵C可计算能描述属性误差的一系列纯量指标。对于数字数据,一般不用由分类矩阵求出的误差指标,而用标准差和方差等。
(3)逻辑一致性
逻辑一致性是指数据之间要维护良好的逻辑关系。例如森林的边界与道路的边界应当是不一样的,但制图时,往往只给出道路边界;行政境界与管理区域境界应严格一致;对于水库的制图表达,不同时期的GIS数据层所表达的水库边界可能位置不同,虽然边界精度都很高,但数据层之间具有逻辑不一致性。在这种情况下,解决问题的办法是提供一个标准的水库的外围轮廓线,每层数据水库水涯线的表达与标准水库边界线配准。
重要的是,要认识到两个数据集合不但要使它们的位置精度水平要一致,而且逻辑关系上也应当是一致的。这是因为,同一边界,在两个数据集合中如果位置上存在微小不同,也许仍能满足位置精度水平的要求,但当两个数据进行叠合时,这种微小差别会在缝隙处产生一个非常小的区域,称之为裂片。有些GIS软件能够处理这种情况,在其中一种特征周围附加一个不确定的带区,当两种特征叠加时,能够处理带区的叠加问题,就象不存在裂片一样(处理成不定带区的边界通常称为模糊边界)。
逻辑一致性没有量测标准。虽然同一特征在位置上的不一致性是可以量测的,然而它们或许是具有逻辑一致关系的几种特征的组合体,量测所有可能的叠加组合体的不一致性可能是不现实的。
逻辑一致性的检查最好是在数据输入GIS前就去做,在地图数字化的准备阶段和单幅图的数字化检查阶段进行,必要时,可重绘该幅图进行逻辑一致性检查。
(4)分辨率
对于数字遥感图像、栅格型空间数据库,分辨率越高,象素就越小,这就意味着每个度量单元具有较多的信息和潜在的细节,分辨率越低,就意味着象素越大,每个度量单元的细节就越小,因而看起来有些粗糙。如果能正确地处理分辨率,就可以通过提供合适的信息量和信息密度去模仿连续色调,从而大大地改善对细节的显示,正确地选择分辨率还有助于确保数字化图像中的色调能忠实于原图像。但在矢量数字化地图方面,人们往往会忽视分辨率的问题。以为地图要素都以坐标方式储存起来后,可以任何比例输出。但实际上还是有比例的,如:原始地图按1:10000要求输入时,比1米还短的线一般要忽略,但是把数字化地图放大到1:500输出时,用户肯定认为太粗糙。因此,矢量空间数据库的比例主要由分辨率和位置精度决定,必须在数据库设计阶段就定义好最小制图单位,在数据输入时,小于最小制图单位的元素(主要是线段长度太短)不存入数据库,大于最小制图单位的元素则必须存入。在实践中,采用手工数字化输入地图时,图纸的比例尺稍大一些容易保证输入的精度和分辨率。
对于专题图来说,例如土壤图、土地利用图以及其它类型分类图,分解力是指所表达的最小物体的大小,称之为最小制图元。如何确定图中表达的最小物体单元,取决于地图的编辑过程、使用目的、可读性、原始数据精度、制图成本、信息的表达和存贮要求等。
在GIS中,信息的存贮和表达是矛盾的。在GIS数据库中,地理数据可以以任意比例存贮,为满足输出的比例要求,可以增加标识和其它的地图细节描述。在这种意义上,GIS地理数据库中的数据不能以特定的比例存贮,因此,最小制图单元应当设置得非常小。甚至对于一个很大的分层区域也是如此。对于输出的地图上的内容细节应该是根据输出的比例大小而选择。
宏观方面的数据质量问题
(1)完整性
数据完整性包括数据层的完整性、分类的完整性和检验完整性。
数据层的完整性是指所感兴趣的研究区域可用的数据组成部分的完整性。这主要是指可能存在所要区域数据的不能100%覆盖或属性不完整等;另一方面是由于研究区域内数据变化没有及时得到更新,造成数据的不完整。
数据分类的完整性主要是指如何选择分类才能表达数据。某些分类常常导致数据重复或缺项等,如地质方面的数据库需要对岩石进行分类,由于资料是从不同角度、用不同方法间接得到的,分类后可能在空间上相互重叠或有空白区域,因技术条件制约,常常无法肯定这些重叠区或空白区究竟属于哪一类岩石。
数据检验完整性主要指对野外数据测量成果和其它独立数据源数据的检验。例如,地质学家用实线标注他们在野外直接证实的岩石类型,象这些边界线在实地也是可以看得见的。用虚线或点线标注的用红外遥感推测的边界线,在地质遥感中应用的很广泛,但在GIS中就没有标准的方法对此数据的准确性进行检验。数据集合通常不提供这方面的信息。因此,用户将无法知道不同的边界线和分类情况被检验的程度如何。数据检验完整性或许要指明数据集合内地理特征的属性完整性如何,也可能是以每幅图为单位,以表格形式表明所检验数据集合的类型和位置的情况。
(2)时间性
对于许多类型的地理信息来说,时间是一个严格的因素,任何研究项目所需的数据很难在同一时间收集齐全,人口统计数据就具有非常敏感的时间性。在使用现有的数据包括地图、报告、遥感数据、外业数据等,这些数据的获取时间各不相同,有的过时了、有的按过去标准收集、有的不全等。GIS数据收集和输入有相当长的过程,而外部世界无时无刻不在变化。当把不同地点的数据联系起来进行对比分析时,某些地点的数据可能是某个历史时期,而另一些地点的数据可能是另一个历史时期,这样就会有数据收集时间性差异。
(3)地域性
理想的情况应是整个研究区域或整个国家具有一致的数据,即同等精度、统一分类标准的数据覆盖整个区域。但实际情况往往不是这样,资源数据的使用者经常发现某些必要的数据只有部分地区才有,其余地区只有小比例尺地图提供的粗略数据,因而不得不重新收集。由于定义和概念的变化以及地表自然变化等原因,使新老数据不相匹配。
(4)数据档案
资料的收集、输入、处理方法都会对数据质量产生影响,应该对整个过程有文档资料的记载和说明。当用户对数据质量有怀疑时,可查看文档来判断误差产生的原因,或给予纠正。每一数据源和处理方法都应有关于数据生产的误差水平方面的信息。数据档案主要是指数据集合生产历史,原始数据以及处理这些数据所使用的处理步骤等。
4.4.2. 误差来源
所有空间信息都存在着误差。空间信息的产生和使用每一步都有误差产生。除了GIS原始数据本身带有误差外,在空间数据库中进行各种操作、转换和处理也将引入误差。由一组测量结果通过转换处理产生另一种产品时,通常转换次数越多,则产品中引入新误差和不确定性也越多。GIS产品的有效性和GIS本身的生命力与空间数据质量的研究的成效是密切相关的。因此,要保证产品的质量,在GIS系统建立过程中,必须深刻了解每一个阶段,每一环节的误差来源,并进行严格的质量监控,最大限度地减少误差。在使用GIS过程中,数据误差来源可按数据所处的不同阶段划分(见表4-1)。
4.5. 习题
-
GIS有哪些数据来源?数据标准化主要指哪些方面?每个方面的主要内容是什么?
-
空间数据输入主要有哪几种方法?各自如何进行操作?
-
手扶跟踪数字化误差主要有哪些来源?如何提高数字化精度?
-
手扶跟踪数字化与扫描数字化主要有哪些区别?
-
非空间数据如何输入?如何实现空间数据和非空间数据的连接?
-
在GIS系统中,不同阶段的数据,主要有哪些误差来源?