一种准标准CSV格式的介绍和分析以及解析算法

原创 2013年12月04日 19:43:02

        CSV是一种古老的数据传输格式,它的全称是Comma-Separated Values(逗号分隔值)。出生在那个标准缺失的蛮荒年代,CSV的标准一直(到2005年)是NULL——世间存在着N种CSV格式,它们自成体系,相互不兼容。比如我们从名字可以认为CSV至少是一种使用逗号分隔的格式,但是实际上,有的CSV格式却是使用分号(;)去做分隔。假如,不存在一种标准,那么这东西最终会因为碎片化而发展缓慢,甚至没落。本文讨论的CSV格式是基于2005年发布的RFC4180规范。我想,在这个规范发布之后,大家应该会更加自觉的遵从这套规范去开发——虽然这套标准依旧存在着一些致命的缺陷。(转载请指明出于breaksoftware的csdn博客)

        我们可以从IETF上获得包含了CSV格式定义的文档。当然,如果你觉得看英文文档麻烦,你可以直接看我的下文。

  1. 在不包含换行符(CRLF即 \r\n)的单条信息时,数据要保持在一行,并且使用\r\n结束。
    aaa,bbb,ccc,dddCRLF   合法

    aaa,b                            内容中无换行符,而单条信息被换行,不合法
    bb.ccc,dddCRLF
  2. 最后一条信息可以没有换行符(当然有换行符也是合法的)
    aaa,bbb,ccc,dddCRLF
    eee,fff,ggg,hhh           合法

    aaa,bbb,ccc,dddCRLF
    eee,fff,ggg,hhhCRLF     合法
  3. 第一条信息可能是一个头信息。这个头信息和之后信息格式是相同的,并且和之后的信息有相同的模块数(上例中,aaa和bbb和ccc和ddd各被视为一个模块)。(个人认为这是RFC设计这个CSV格式的一个缺陷,因为这个规则将无法让我们从规则的角度去确认第一条信息到底是头信息还是普通信息。当然RFC这么设计肯定有它的原因。)
    index,character          合法,从字面意思上我们可以认为这个是头,当然我们也可以认为它不是头
    1,aCRLF
    2,bCRLF

    indexCRLF                 非法,模块数不统一
    1,aCRLF
  4. 每条信息都要使用半角逗号(,)分隔出若干模块。每条信息的模块数要相等。每条信息的最后一个模块之后不可以使用半角逗号。空格符被视为一个模块的内容而不可被忽略。(这条规则包含的信息量相对较多)
    aaa,bbbCRLF                合法
    ccc,ddd,CRLF                非法,一条信息的最后一个模块不可以使用半角逗号
    eee;ffffCRLF                   非法,要使用半角逗号分隔,而不是分号
    ggg,       h h h  CRLF     合法,注意hhh模块的若干个空格,它属于模块内容而不可以被忽略
    iii,jjj,kkkkCRLF               非法,模块数和上面不统一
  5. 每个模块首尾可以使用双引号扩住(当然也可以不使用)。如果不使用双引号扩住的模块,模块中不可以出现双引号。(言外之意:如果模块中出现双引号,则这个模块要用双引号将首尾扩住)
    “aaa”,bbbCRLF             合法
    a"aa,bbbCRLF              不合法,因为a"aa中包含了双引号,而这个模块没有被双引号扩住
  6. 如果模块中包含双引号、半角逗号或换行符,则模块首尾要用双引号扩住。
    "a\r\na"a,bbbCRLF       合法,第一个模块包含了换行符,要用双引号包含
    "a,aa",bbbCRLF            合法
  7. 当双引号出现在模块中,要将模块的首尾用双引号扩住,并且将模块中的一个双引号变成一对双引号。
    “a""aa”,bbbCRLF          合法,原始数据为a"aa,bbb

        有了以上规则,我们可以编写出相应的提取算法。以下是我在工作中编写的一套从CSV文件中提取信息的核心代码

BOOL CCSV2Json::Parse()
{
    BOOL bSuc = FALSE;
    do {
        if ( INVALID_HANDLE_VALUE == m_hFile ) {
            break;
        }
        OVERLAPPED ov;
        memset(&ov, 0, sizeof(OVERLAPPED));
        BYTE lpBuffer[BUFFERSIZE] = {0};
        DWORD dwHaveRead = 0;
        std::string strSingle;
        BOOL bFirstDoubleQuotes = FALSE;    // 第一个字符是否为"
        BOOL bBeforeIsDoubleQuotes = FALSE; 
        BOOL bBeforeIsX0D = FALSE;
        ListString Liststr;
        BOOL bPairDoubleQuotes = FALSE;
        while ( ReadFile(m_hFile, lpBuffer, sizeof(lpBuffer), &dwHaveRead, &ov ) ) {
            ov.Offset += dwHaveRead;
            for ( DWORD dwIndex = 0; dwIndex < dwHaveRead; dwIndex++ ) {
                BYTE& by = *(lpBuffer + dwIndex);

                if ( bFirstDoubleQuotes ) {
                    // 有前置"
                    if ( IsDoubleQuotes(by) ) {
                        bBeforeIsX0D = FALSE;
                        if ( bBeforeIsDoubleQuotes ) {
                            strSingle.append(1, (char)(by));
                            bBeforeIsDoubleQuotes = FALSE;
                        }
                        else {
                            bBeforeIsDoubleQuotes = TRUE;
                        }
                    }
                    else {
                        if ( bBeforeIsDoubleQuotes ) {
                            bFirstDoubleQuotes = FALSE;
                        }
                        bBeforeIsDoubleQuotes = FALSE;
                        if ( IsCRLF( by ) ){
                            if ( bFirstDoubleQuotes ) {
                                strSingle.append(1, (char)(by));
                            }
                            else if (FALSE == bBeforeIsX0D) {
                                Liststr.push_back(strSingle);
                                m_Listliststr.push_back(Liststr);
                                Liststr.clear();
                                strSingle.clear();
                                bFirstDoubleQuotes = FALSE;
                            }
                            bBeforeIsX0D = IsX0D(by);
                        }
                        else if ( IsSep(by) ) {
                            bBeforeIsX0D = FALSE;
                            if ( bFirstDoubleQuotes ) {
                                strSingle.append(1, (char)(by));
                            }
                            else {
                                bBeforeIsX0D = FALSE;
                                Liststr.push_back(strSingle);
                                strSingle.clear();
                            }
                        }
                        else {
                            bBeforeIsX0D = FALSE;
                            strSingle.append(1, (char)(by));
                        }
                    }
                }
                else{
                    // 如果无前置"
                    if ( IsDoubleQuotes(by) ) {
                        bBeforeIsX0D = FALSE;
                        if ( strSingle.empty() ) {
                            // 空串,第一个是"
                            bFirstDoubleQuotes = TRUE;
                            bBeforeIsDoubleQuotes = FALSE;
                        }
                        else {
                            strSingle.append(1,(char)(by));
                            continue;
                        }
                    }
                    else {
                        bBeforeIsDoubleQuotes = FALSE;
                        if ( IsCRLF( by ) ){
                            if (FALSE == bBeforeIsX0D) {
                                Liststr.push_back(strSingle);
                                m_Listliststr.push_back(Liststr);
                                Liststr.clear();
                                strSingle.clear();
                                bFirstDoubleQuotes = FALSE;
                                bBeforeIsDoubleQuotes = FALSE;
                            }
                            else {
                                // 连续\r\n不考虑设置为新的行
                            }
                            bBeforeIsX0D = IsX0D(by);
                        }
                        else if ( IsSep(by) ) {
                            bBeforeIsX0D = FALSE;
                            Liststr.push_back(strSingle);
                            strSingle.clear();
                        }
                        else {
                            bBeforeIsX0D = FALSE;
                            strSingle.append(1, (char)(by));
                        }
                    }
                }

            }
            memset(lpBuffer, 0, sizeof(lpBuffer));     
        }
        
        if ( false == strSingle.empty() ) {
//             while ( IsCRLF(strSingle.at(strSingle.length() - 1) ) && strSingle.length() > 0) {
//                 strSingle = strSingle.substr(0, strSingle.length() - 1 );
//             }
            Liststr.push_back(strSingle);
            m_Listliststr.push_back(Liststr);
            Liststr.clear();
            strSingle.clear();
        }

        bSuc = TRUE;
    } while (0);
    
    if ( NULL != m_hFile ) {
        CloseHandle(m_hFile);
        m_hFile = NULL;
    }
    
    return bSuc;
}
        这段代码将CSV文件提取出来一个std::list<std::list<std::string>>结构。如上面名字所示,我这个功能是要将CSV文件转换为json格式,相应的我也编写了从json格式转换为CSV格式文件的代码。这些代码都在工程中

相关文章推荐

debian 上用wmi获取远端windows server 2003(被管理者) 的wmi信息

(1)debian 上需要安装wmic命令, 方法一:下载源码文件,然后编译,复制到/usr/bin/下, 方法二:下载本地安装包,地址为this website: libwmiclient...
  • hxh129
  • hxh129
  • 2013年04月03日 14:26
  • 2382

windows server系统用户与用户组管理

【实验目的】: 1.    学会在Windows 2003 Sever下管理本地用户和组 2.    熟悉 indows 2003 Sever用户管理机制   【实验内容】: 1.    帐...

一种好用的文件格式—csv文件

一种好用的文件格式—csv文件   在电子技术中,经常涉及到大量的数据处理工作。将采集到的数据导入Excel文件,可以很方便地利用Excel中封装的大量公式函数完成进一步的数据计算处理工作。因此在自...

CSV标准格式

1. CSV的全称是叫Comma Separated Value 2. CSV的MIME类型是text/csv 3 CSV文件中的每一行数据,作为一行记录,也就是一个条目(99%的情况,排除有些换...
  • zlzlei
  • zlzlei
  • 2013年07月03日 17:54
  • 9329

标准CSV格式

以下内容均来自 rfc4180 CSV的MIME类型是text/csvCSV文件中的每一行数据,作为一行记录,也就是一个条目(99%的情况,排除有些换行数据,下面会提到)CSV文件的每一行数据后面跟...

csv格式转LibSVM标准格式小程序

  • 2015年07月15日 10:35
  • 103KB
  • 下载

在Visual C++ 6.0下显示JPEG、GIF等格式标准的图像的一种实现起来比较简便的方法

摘要:本文讲述了在Visual C++ 6.0下显示JPEG、GIF等格式标准的图像的一种实现起来比较简便的方法,对实现过程作有详细的说明。 关键字:图像、JPEG、GIF、Microsof...

C#解析Excel文件(CSV格式)

  • 2014年03月21日 18:49
  • 8KB
  • 下载

Dijkstral的一种改进算法pdf格式

  • 2009年01月04日 22:37
  • 383KB
  • 下载

标准CSV解析

很方便的csv解析,可以解析带有分隔符的字段,可以解析成map方便程序使用。// // CCSVParse.hpp // CPPAlgorithm // // Created by xujw o...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:一种准标准CSV格式的介绍和分析以及解析算法
举报原因:
原因补充:

(最多只允许输入30个字)