系统程序员成长计划-文本处理 INI解析器

分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

               
     Sunday, June 07th, 2009 | Author: admin     | » Edit «   

 

转载时请注明出处和作者联系方式
文章出处:http://www.limodev.cn/blog
作者联系方式:李先静 <xianjimli at hotmail dot com>

系统程序员成长计划-文本处理(一)

状态机(3)

o INI解析器

上面我们看了只有中间两个状态的状态机,现在我们来看一个稍微复杂一点的状态机。

INI文件是Windows下常用的一种配置文件。它由多个分组组成,每个组有多个配置项,每个配置项又由名称和值组成。文件里还可以包含注释,注释通常以‘;’(或‘#’)开始,直到当前行结束。如XP下的win.ini:

; for 16-bit app support
[fonts]
[extensions]
[mci extensions]
[files]
[MCI Extensions.BAK]
aif=MPEGVideo
aifc=MPEGVideo
aiff=MPEGVideo
asf=MPEGVideo
asx=MPEGVideo
au=MPEGVideo
m1v=MPEGVideo
m3u=MPEGVideo
mp2=MPEGVideo
mp2v=MPEGVideo
mp3=MPEGVideo
[annie]
CaptureFile=
VideoDevice=0
AudioDevice=0
FrameRate=333333
UseFrameRate=1
CaptureAudio=1
WantPreview=1
MasterStream=-1
[SciCalc]
layout=0

第一行是注释,后面有fonts、extensions和mci extensions三个空的分组,MCI Extensions.BAK、annie和SciCalc三个分组包含有一个或多个配置项。

对于这样一个文件,我们应该怎样去解析它呢?按照前面的方法,先把数据读入到一个缓冲区中,让一个指针指向缓冲区的头部,然后移动指针,直到指向缓冲区的尾部。在这个过程中,指针可能指向的注释、分组的组名、配置项的名称、配置项的值或者一些如换行符之类的格式信息。

由此,我们可以这样来定义INI的状态机:

状态集合:
1. 分组的组名状态
2. 注释状态
3. 配置项的名称状态
4. 配置项的值状态
5. 空白状态

状态转换函数:
1. 初始状态为“空白”状态。
2. 在“空白”状态下,读入字符‘[’,进入“分组组名”状态。
3. 在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。
4. 在“空白”状态下,读入字符‘;’,进入“注释”状态。
5. 在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。
6. 在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。
7. 在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。
8. 在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。

INI状态机可以用下图来表示:

现在我们来看看程序实现:

static void ini_parse (char* buffer, char comment_char, char delim_char)
{
    char* p = buffer;
    char* group_start = NULL;
    char* key_start   = NULL;
    char* value_start = NULL;
    /*定义INI解析器的状态,初始状态为“空白”状态。*/
    enum _State
    {
        STAT_NONE = 0,
        STAT_GROUP,
        STAT_KEY,
        STAT_VALUE,
        STAT_COMMENT
    }state = STAT_NONE;

    for(p = buffer; *p != '/0'; p++)
    {
        switch(state)
        {
            case STAT_NONE:
            {
                if(*p == '[')
                {
                    /*在“空白”状态下,读入字符‘[’,进入“分组组名”状态。*/
                    state = STAT_GROUP;
                    group_start = p + 1;
                }
                else if(*p == comment_char)
                {
                    /*在“空白”状态下,读入字符‘;’,进入“注释”状态。*/
                    state = STAT_COMMENT;
                }
                else if(!isspace(*p))
                {
                    /*在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。*/
                    state = STAT_KEY;
                    key_start = p;
                }
                break;
            }
            case STAT_GROUP:
            {
                /*在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。*/
                if(*p == ']')
                {
                    *p = '/0';
                    state = STAT_NONE;
                    strtrim(group_start);
                    printf("[%s]/n", group_start);
                }
                break;
            }
            case STAT_COMMENT:
            {
                /*在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。*/
                if(*p == '/n')
                {
                    state = STAT_NONE;
                    break;
                }
                break;
            }
            case STAT_KEY:
            {
                /*在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。*/
                if(*p == delim_char || (delim_char == ' ' && *p == '/t'))
                {
                    *p = '/0';
                    state = STAT_VALUE;
                    value_start = p + 1;
                }
                break;
            }
            case STAT_VALUE:
            {
                /*在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。*/
                if(*p == '/n' || *p == '/r')
                {
                    *p = '/0';
                    state = STAT_NONE;
                    strtrim(key_start);
                    strtrim(value_start);
                    printf("%s%c%s/n", key_start, delim_char, value_start);
                }
                break;
            }
            default:break;
        }
    }

    if(state == STAT_VALUE)
    {
        strtrim(key_start);
        strtrim(value_start);
        printf("%s%c%s/n", key_start, delim_char, value_start);
    }

    return;
}

ini文件有几个变种:
1. 支持默认分组,如果只有一个分组,省略分组的组名,linux下不少配置文件采用这种方式。
2. 注释符号,有的用‘;’,有的用‘#’,前者多用于Windows下,后面多用于Linux下。
3. 名称和值之间的分隔,有的用空格,有的用‘=’,有的‘:’。

不管哪种格式,它们的解析方法是一样的,在上面的程序中,我们使用了comment_char和 delim_char两个参数,分别表示注释符号和分隔符号。

           

给我老师的人工智能教程打call!http://blog.csdn.net/jiangjunshow
这里写图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值