[C++]C语言读取写入CSV文件 [二]进阶篇写入CSV文件

本系列介绍了如何利用C语言读取写入CSV文件,本篇是系列的第二篇,介绍了利用C语言写入CSV文件的进阶内容,包括包裹的概念、特殊符号的处理、如何处理开头和结尾处的空格、分隔符可能存在的问题以及最后介绍了可以使用软件进行配置。

本系列文章目录

[一] 基础篇

[二] 进阶篇——写入CSV

[三] 进阶篇——读取CSV


什么是 包裹(使用双引号)?

包裹的概念是面向字段的,包裹起来的字段将会被视为一个整体。尤其当字段中包含一些特殊符号(如逗号、换行符、双引号)时,如果不将这些字段包裹起来,则很有可能导致 CSV 文件解析发生错误。那么我们该如何包裹一个字段呢,通常将一个字段放置在双引号("")之间,例如"ID",ID就是一个被包裹的字段。任何字段都可以使用双引号("")将其包裹起来,并不存在任何限制。

字段中特殊符号的处理

根据上面的介绍,如果一个字段中包含特殊符号,那么在写入时必须使用双引号来包裹这个字段。有一点需要注意,C语言中字符串中的双引号需要通过使用转义符号来表示(\")

下面分别用逗号、换行符、双引号来做示例

  • 逗号fprintf(fp, "3,\"z,xc\",3.3\n");
  • 换行符fprintf(fp, "4,\"qw\nas\",4.4\n");
  • 双引号fprintf(fp, "5,\"\"aszx\"\",5.5\n");,第一个用作包裹字段,第二个双引号才是实际的双引号。

完整的程序如下:

// 2-1.c
#include <stdio.h>
#include <stdlib.h>

int main()
{
    FILE *fp = fopen("tmp.csv", "w+");
    if (fp == NULL) {
        fprintf(stderr, "fopen() failed.\n");
        exit(EXIT_FAILURE);
    }

    fprintf(fp, "ID,Name,Points\n");
    fprintf(fp, "1,qwe,1.1\n");

    int id = 2;
    char *name = "asd";
    float point = 2.2;
    fprintf(fp, "%d,%s,%f\n", id, name, point);

    // special symbols
    fprintf(fp, "3,\"z,xc\",3.3\n");
    fprintf(fp, "4,\"qw\nas\",4.4\n");
    fprintf(fp, "5,\"\"aszx\"\",5.5\n");

    fclose(fp);
    return 0;
}

运行程序,查看 CSV 文件内容,结果为:

图1. CSV文件内容截图

字段开头和结尾处的空格和制表符

CSV 文件中的字段中的开头和结尾上,可能会存在空格或制表符,但是该如何处理呢?按照 RFC 4180 标准的规定,“空格被看作字段的一部分,不应当被忽略”。但是RFC 4180 并不是强制标准,因此某些实现中,空格和制表符会被截断掉。因此 fprintf(fp, " 6,abc,6.6 \n"); 写入的字段可能是 6,abc,6.6(按照 RFC 4180 标准) 或者是 6,abc,6.6(空格被截掉)

然而,在 RFC 4180 标准中,并未说明空格字符若出现在被包裹的值之外如何处理,例如在 fprintf(fp, " \"7\",def,\"7.7\" \n"); 语句中,如字段\"7\",虽然7被包裹,但包裹之外的又有空格,因此目前标准中对这样的空格该如何处理还没有规定,可以保留也可以截掉。\"7.7\" 字段也面临着同样的问题。

想要将这种空格视为字段中有意义的数据,最省事的方法是将这些空格也包裹起来,例如 fprintf(fp, "\" 8\",ghi,\"8.8 \"\n"); 语句中的 "\" 8\"\"8.8 \"字段中,属于字段的空格已被包裹。

完整的程序如下:

// 2-2.c
#include <stdio.h>
#include <stdlib.h>

int main()
{
    FILE *fp = fopen("tmp.csv", "w+");
    if (fp == NULL) {
        fprintf(stderr, "fopen() failed.\n");
        exit(EXIT_FAILURE);
    }

    fprintf(fp, "ID,Name,Points\n");
    fprintf(fp, "1,qwe,1.1\n");

    int id = 2;
    char *name = "asd";
    float point = 2.2;
    fprintf(fp, "%d,%s,%f\n", id, name, point);

    // special symbols
    fprintf(fp, "3,\"z,xc\",3.3\n");
    fprintf(fp, "4,\"qw\nas\",4.4\n");
    fprintf(fp, "5,\"\"aszx\"\",5.5\n");

    // leading or trailing spaces
    fprintf(fp, "  6,abc,6.6  \n");
    fprintf(fp, "  \"7\",def,\"7.7\"  \n");
    fprintf(fp, "\"  8\",ghi,\"8.8  \"\n");

    fclose(fp);
    return 0;
}

运行程序,查看 CSV 文件内容,结果为:

图2. CSV文件内容截图

分隔符可能存在的问题

在某些国家(如德国、荷兰)中,小数点不是点而是逗号,因此如果依然用逗号作分隔符,那么将无法正确表示。那么该在保证小数点是逗号前提下,如何避免CSV文件解析错误,存在两种解决方法:

  1. 将所有包含小数点的数字包裹起来
  2. 使用分号而不是逗号作为分隔符

利用软件进行配置

无论是开头或结尾处的空格或制表符,还是分隔符的选择,在一些功能强大的软件中,这些其实都可以进行配置,下图分别展示了在 Microsoft Excel、LibreOffice Calc中如何解析CSV文件的配置界面。

图3. LibreOffice Calc 打开读取CSV文件的配置界面

图4. Microsoft Excel 打开读取CSV文件的配置界面

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

被代码搞废的挖掘机

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值