简介
看这篇文章的朋友应该已经知道shplib了,官方介绍如下:
The Shapefile C Library provides the ability to write simple C programs for reading, writing and updating (to a limited extent) ESRI Shapefiles, and the associated attribute file (.dbf).
支持三类文件:
XXX.shp - holds the actual vertices.
XXX.shx - hold index data pointing to the structures in the .shp file.
XXX.dbf - holds the attributes in xBase (dBase) format.
官方介绍请参考Shapefile C Library。
github地址: OSGeo /shapelib 。
本文主要关注于dbf文件。
shplib操作dbf的API:Attribute (.DBF) API。
dbf文件格式
想要实现操作dbf,必须先清楚dbf文件格式。
dbf是xBase数据库的一种,它由文件头和数据体两部分组成。
其中,文件头包含dbf文件的总括性信息,数据体为各个记录项的实际数据。
详细文件格式请参考Xbase Data file。
看明白了就可以看’DBFOpen()'函数了,结合着效果更佳。
多进程操作文件时获取实时行数
一般情况下,使用基本的api已经可以满足读写需求。
但是,对于多进程操作同一个dbf文件而言,就不是那么顺利了。
项目中,由于另外一个进程会操作dbf,所以我们的进程在操作该dbf时需要注意文件同步。
文件同步的方式包括:读锁、写锁。读锁可以是共享锁,允许多个进程同时读,不允许写。写锁是独占锁,不允许其他进程读写。
锁的使用不详述。
由于另一进程写文件后,我需要实时读取新写入的数据,所以这里主要关注dbf文件的行数及读取。
根据API,使用DBFGetRecordCount()
返回当前文件的记录数量。但它是“静态”的:
- 在打开dbf文件时,在文件头中读取Number of records并记录该值
- 调用时,直接返回打开dbf文件时记录的值
这样,在另一进程写入新的记录后,调用该函数得到的并不是正确的记录数,而是刚打开文件时的记录数。
修改该函数如下:
int SHPAPI_CALL
DBFGetRecordCount( DBFHandle psDBF )
{
// 新增代码
long int curr_pos = ftell(psDBF->fp); // 保存当前文件指针,用于恢复
// 1. 定位到文件尾
// 2. 获取文件总长度
// 3. 计算记录数量=(文件总长度-文件头长度)/每个记录长度
psDBF->sHooks.FSeek(psDBF->fp, 0, SEEK_END);
long int ans = ftell(psDBF->fp);
psDBF->nRecords = (ans - psDBF->nHeaderLength) / psDBF->nRecordLength;
psDBF->sHooks.FSeek(psDBF->fp, curr_pos, SEEK_SET); // 恢复文件指针
// 原代码
return( psDBF->nRecords );
}
如注释说明,我是根据读取文件总长度,然后计算出来的。
文件头中不是含有记录数量的信息么,为什么不重新读取该值呢?我试了,不行的,好象该值没有更新。
为什么没有更新,应该是shplib打开dbf时即把文件载入内存,即使外部进程把文件修改了,但由于shplib并没有再次读取文件,所以内存内容并没有改变。
对于按行读取和按行写入的应用来说,测试表明,上述的修改是可行的。
小结
作为二进制文件格式,清楚了dbf文件格式之后,直接写代码实现也是可以的。
但是,已经有了一个轮子,我们只需要每次使用时擦洗一下就可以了,何必重复造轮子?
这也是开源的好处。
对于特定需求的应用,可以根据自己的需求修改测试,以满足应用的需要。