一种准标准CSV格式的介绍和分析以及解析算法

最新推荐文章于 2025-11-07 01:53:09 发布

原创最新推荐文章于 2025-11-07 01:53:09 发布 · 1.8w 阅读

4 ·

CC 4.0 BY-SA版权

疑难杂症专栏收录该内容

21 篇文章

订阅专栏

本文详细探讨了CSV数据格式的定义与规范，包括换行符、信息分隔、模块数量、双引号使用规则等内容，并提供了一段用于从CSV文件中提取信息的核心代码。此外，还介绍了如何将CSV文件转换为JSON格式。

CSV是一种古老的数据传输格式，它的全称是Comma-Separated Values（逗号分隔值）。出生在那个标准缺失的蛮荒年代，CSV的标准一直（到2005年）是NULL——世间存在着N种CSV格式，它们自成体系，相互不兼容。比如我们从名字可以认为CSV至少是一种使用逗号分隔的格式，但是实际上，有的CSV格式却是使用分号(;)去做分隔。假如，不存在一种标准，那么这东西最终会因为碎片化而发展缓慢，甚至没落。本文讨论的CSV格式是基于2005年发布的RFC4180规范。我想，在这个规范发布之后，大家应该会更加自觉的遵从这套规范去开发——虽然这套标准依旧存在着一些致命的缺陷。（转载请指明出于breaksoftware的csdn博客）

我们可以从IETF上获得包含了CSV格式定义的文档。当然，如果你觉得看英文文档麻烦，你可以直接看我的下文。

在不包含换行符（CRLF即 \r\n）的单条信息时，数据要保持在一行，并且使用\r\n结束。
aaa,bbb,ccc,dddCRLF 合法

aaa,b 内容中无换行符，而单条信息被换行，不合法
bb.ccc,dddCRLF
最后一条信息可以没有换行符（当然有换行符也是合法的）
aaa,bbb,ccc,dddCRLF
eee,fff,ggg,hhh 合法

aaa,bbb,ccc,dddCRLF
eee,fff,ggg,hhhCRLF 合法
第一条信息可能是一个头信息。这个头信息和之后信息格式是相同的，并且和之后的信息有相同的模块数（上例中，aaa和bbb和ccc和ddd各被视为一个模块）。（个人认为这是RFC设计这个CSV格式的一个缺陷，因为这个规则将无法让我们从规则的角度去确认第一条信息到底是头信息还是普通信息。当然RFC这么设计肯定有它的原因。）
index,character 合法，从字面意思上我们可以认为这个是头，当然我们也可以认为它不是头
1,aCRLF
2,bCRLF

indexCRLF 非法，模块数不统一
1,aCRLF
每条信息都要使用半角逗号（,）分隔出若干模块。每条信息的模块数要相等。每条信息的最后一个模块之后不可以使用半角逗号。空格符被视为一个模块的内容而不可被忽略。（这条规则包含的信息量相对较多）
aaa,bbbCRLF 合法
ccc,ddd,CRLF 非法，一条信息的最后一个模块不可以使用半角逗号
eee;ffffCRLF 非法，要使用半角逗号分隔，而不是分号
ggg, h h h CRLF 合法，注意hhh模块的若干个空格，它属于模块内容而不可以被忽略
iii,jjj,kkkkCRLF 非法，模块数和上面不统一
每个模块首尾可以使用双引号扩住（当然也可以不使用）。如果不使用双引号扩住的模块，模块中不可以出现双引号。（言外之意：如果模块中出现双引号，则这个模块要用双引号将首尾扩住）
“aaa”,bbbCRLF 合法
a"aa,bbbCRLF 不合法，因为a"aa中包含了双引号，而这个模块没有被双引号扩住
如果模块中包含双引号、半角逗号或换行符，则模块首尾要用双引号扩住。
"a\r\na"a,bbbCRLF 合法，第一个模块包含了换行符，要用双引号包含
"a,aa",bbbCRLF 合法
当双引号出现在模块中，要将模块的首尾用双引号扩住，并且将模块中的一个双引号变成一对双引号。
“a""aa”,bbbCRLF 合法，原始数据为a"aa,bbb

有了以上规则，我们可以编写出相应的提取算法。以下是我在工作中编写的一套从CSV文件中提取信息的核心代码

BOOL CCSV2Json::Parse()
{
    BOOL bSuc = FALSE;
    do {
        if ( INVALID_HANDLE_VALUE == m_hFile ) {
            break;
        }
        OVERLAPPED ov;
        memset(&ov, 0, sizeof(OVERLAPPED));
        BYTE lpBuffer[BUFFERSIZE] = {0};
        DWORD dwHaveRead = 0;
        std::string strSingle;
        BOOL bFirstDoubleQuotes = FALSE;    // 第一个字符是否为"
        BOOL bBeforeIsDoubleQuotes = FALSE; 
        BOOL bBeforeIsX0D = FALSE;
        ListString Liststr;
        BOOL bPairDoubleQuotes = FALSE;
        while ( ReadFile(m_hFile, lpBuffer, sizeof(lpBuffer), &dwHaveRead, &ov ) ) {
            ov.Offset += dwHaveRead;
            for ( DWORD dwIndex = 0; dwIndex < dwHaveRead; dwIndex++ ) {
                BYTE& by = *(lpBuffer + dwIndex);

                if ( bFirstDoubleQuotes ) {
                    // 有前置"
                    if ( IsDoubleQuotes(by) ) {
                        bBeforeIsX0D = FALSE;
                        if ( bBeforeIsDoubleQuotes ) {
                            strSingle.append(1, (char)(by));
                            bBeforeIsDoubleQuotes = FALSE;
                        }
                        else {
                            bBeforeIsDoubleQuotes = TRUE;
                        }
                    }
                    else {
                        if ( bBeforeIsDoubleQuotes ) {
                            bFirstDoubleQuotes = FALSE;
                        }
                        bBeforeIsDoubleQuotes = FALSE;
                        if ( IsCRLF( by ) ){
                            if ( bFirstDoubleQuotes ) {
                                strSingle.append(1, (char)(by));
                            }
                            else if (FALSE == bBeforeIsX0D) {
                                Liststr.push_back(strSingle);
                                m_Listliststr.push_back(Liststr);
                                Liststr.clear();
                                strSingle.clear();
                                bFirstDoubleQuotes = FALSE;
                            }
                            bBeforeIsX0D = IsX0D(by);
                        }
                        else if ( IsSep(by) ) {
                            bBeforeIsX0D = FALSE;
                            if ( bFirstDoubleQuotes ) {
                                strSingle.append(1, (char)(by));
                            }
                            else {
                                bBeforeIsX0D = FALSE;
                                Liststr.push_back(strSingle);
                                strSingle.clear();
                            }
                        }
                        else {
                            bBeforeIsX0D = FALSE;
                            strSingle.append(1, (char)(by));
                        }
                    }
                }
                else{
                    // 如果无前置"
                    if ( IsDoubleQuotes(by) ) {
                        bBeforeIsX0D = FALSE;
                        if ( strSingle.empty() ) {
                            // 空串，第一个是"
                            bFirstDoubleQuotes = TRUE;
                            bBeforeIsDoubleQuotes = FALSE;
                        }
                        else {
                            strSingle.append(1,(char)(by));
                            continue;
                        }
                    }
                    else {
                        bBeforeIsDoubleQuotes = FALSE;
                        if ( IsCRLF( by ) ){
                            if (FALSE == bBeforeIsX0D) {
                                Liststr.push_back(strSingle);
                                m_Listliststr.push_back(Liststr);
                                Liststr.clear();
                                strSingle.clear();
                                bFirstDoubleQuotes = FALSE;
                                bBeforeIsDoubleQuotes = FALSE;
                            }
                            else {
                                // 连续\r\n不考虑设置为新的行
                            }
                            bBeforeIsX0D = IsX0D(by);
                        }
                        else if ( IsSep(by) ) {
                            bBeforeIsX0D = FALSE;
                            Liststr.push_back(strSingle);
                            strSingle.clear();
                        }
                        else {
                            bBeforeIsX0D = FALSE;
                            strSingle.append(1, (char)(by));
                        }
                    }
                }

            }
            memset(lpBuffer, 0, sizeof(lpBuffer));     
        }
        
        if ( false == strSingle.empty() ) {
//             while ( IsCRLF(strSingle.at(strSingle.length() - 1) ) && strSingle.length() > 0) {
//                 strSingle = strSingle.substr(0, strSingle.length() - 1 );
//             }
            Liststr.push_back(strSingle);
            m_Listliststr.push_back(Liststr);
            Liststr.clear();
            strSingle.clear();
        }

        bSuc = TRUE;
    } while (0);
    
    if ( NULL != m_hFile ) {
        CloseHandle(m_hFile);
        m_hFile = NULL;
    }
    
    return bSuc;
}

这段代码将CSV文件提取出来一个std::list<std::list<std::string>>结构。如上面名字所示，我这个功能是要将CSV文件转换为json格式，相应的我也编写了从json格式转换为CSV格式文件的代码。这些代码都在工程中。

6 条评论

渣刀白 2016.06.02
请问一下第6点中的 "a\r\na"a,bbbCRLF 文中说模块首尾要用双引号扩住，是否应该是 "a\r\naa",bbbCRLF 才是正确的？文中的写法，第一个模块的最后一个a在双引号的外面
- breaksoftware回复渣刀白 2016.06.06
  [reply]hs362321[/reply] 在我理解中也是合法的。你可以参见RFC文档 6. Fields containing line breaks (CRLF), double quotes, and commas should be enclosed in double-quotes. 它只是说如果模块中有换行符、双引号或逗号，需要把他们控制在双引号之间。而并没有说该模块中其他字符也要在双引号之中。你可以拿excel测试。

ahaqzylx3_4 2014.11.19
"a\r\na"a,bbbCRLF 这个怎么感觉不规范。。。不是代码问题，代码我还在学习中。。。
- breaksoftware回复ahaqzylx3_4 2014.11.19
  [reply]ahaqzylx3_4[/reply] 这个是规范，\r\n是转义。

ahaqzylx3_4 2014.11.18
代码希望楼主多做点注释。。这样看起来比较的方便

ahaqzylx3_4 2014.11.18
最近有个任务。。解析这种格式。。。非常有用。。。第六点估计作者笔误。。。。看看
- breaksoftware回复ahaqzylx3_4 2014.11.19
  [reply]ahaqzylx3_4[/reply] 这个是规范，\r\n是转义。
- ahaqzylx3_4回复breaksoftware 2014.11.19
  [reply]Breaksoftware[/reply] "a\r\na"a,bbbCRLF 这个怎么感觉不规范。。。不是代码问题，代码我还在学习中。。。
- breaksoftware回复ahaqzylx3_4 2014.11.18
  [reply]ahaqzylx3_4[/reply] 笔误是指？