CSV文件格式解析器的实现:从字符串Split到FSM

http://blog.csdn.net/stevenkylelee/article/details/38309147





本文乃Siliphen原创,转载请注明出处:http://blog.csdn.net/stevenkylelee/article/details/38309147

 

  本文分为5小节,基本上就是我刚接触CSV文件到思考、实践做一个CSV解析器的过程的还原。希望我的思路也能带领你一步步从浅到深认识CSV文件格式。

 

  1.简单的CSV解析器实现。

  2.简单实现的CSV解析器的问题

  3. CSV格式的定义

  4.用FSM(有限状态机)来做CSV格式解析。

  5.为什么使用CSV格式

 

  1.简单的CSV解析器实现。

 

  最近有一个需求,读取CSV格式的配置。CSV是CommaSeparated Value(逗号分隔值)的缩写,通常用文本表示数据。CSV格式数据的结构类似表格,不同的记录占用一行,一行中的字段用“,”(逗号)分隔,例如:

 

  名字,职业,工作经验(年),

  Siliphen Lee,软件工程师(码畜),5

  Edison Chou,游戏服务器端主程,1

  Deson,钢琴教师兼游戏策划,1

  … …

 

  咋一看,CSV格式比较简单。就是用行来分隔不同的记录,记录中用“,”逗号分隔不同的字段域。仅仅是这样考虑的话,那么编写CSV解析器也很简单了。就是字符串的分割而已。

 

  好,下面来动手实现下这个思路。C#等语言的字符串都有Split函数,C++的标准库却连这个很常用的函数都没,C++的标准库简直是弱爆了!而就算用了boost,因为boost接近std的风格,类似Split功能的函数,使用起来也比较麻烦。

 

  没办法,只好自己编写Split来实现CSV的解析了。对于CSV的解析功能,为了实现“组件化”,“复用”的理想,可以单独写一个Csv类,封装一些相关操作。以后在别的工程项目中,也可以直接把这个类拿过去用。

 

  CSV类,三下五除二,就编写好了。代码如下:


  头文件

  1. #pragma once  
  2.   
  3. #include <vector>  
  4. #include <string>  
  5. using namespace  std;  
  6.   
  7. class Csv  
  8. {  
  9. public:  
  10.     Csv();  
  11.     ~Csv();  
  12.   
  13. public:  
  14.   
  15.     // 载入一个CSV文件  
  16.     void Load(const string& strFileName);  
  17.   
  18.     // 从字符串从解析  
  19.     void Parse(const string&  strText);  
  20.   
  21. public :  
  22.   
  23.     /* 
  24.         分割字符串 
  25.         str 要分隔的字符串 
  26.         seperator 分隔符 
  27.         Ret 分割后的结果 
  28.     */  
  29.     static void Split(const string &str, const string& seperator, vector< string >& Ret);  
  30.   
  31.     /* 
  32.         读取整个文件的数据 
  33.     */  
  34.     static void ReadAll(const string& strFileName , string& Data );  
  35.   
  36. public :  
  37.   
  38.     vector< vector< string > >& GetGridData(){ return m_GridData; }  
  39.   
  40. private :   
  41.   
  42.     // 原始表格数据  
  43.     vector< vector< string > > m_GridData;  
  44.   
  45. };  

  实现文件:
  1. #include "Csv.h"  
  2. #include <stdio.h>  
  3.   
  4. Csv::Csv()  
  5. {  
  6. }  
  7.   
  8. Csv::~Csv()  
  9. {  
  10. }  
  11.   
  12. void Csv::ReadAll(const string& strFileName, string& Data)  
  13. {  
  14.     // 读取文件数据  
  15.     FILE* pFile = fopen(strFileName.c_str(), "rb");  
  16.     if (pFile == 0)  
  17.     {  
  18.         return;  
  19.     }  
  20.   
  21.     fseek(pFile, 0, SEEK_END);  
  22.     long len = ftell(pFile);  
  23.   
  24.     char *pBuffer = new char[len + 1];  
  25.   
  26.     fseek(pFile, 0, SEEK_SET);  
  27.     fread(pBuffer, 1, len, pFile);  
  28.     fclose(pFile);  
  29.   
  30.     pBuffer[len] = 0;  
  31.     Data.assign(pBuffer, len );  
  32.   
  33.     delete[] pBuffer;  
  34.   
  35. }  
  36.   
  37. void Csv::Load(const string& strFileName)  
  38. {  
  39.     string Data;   
  40.     ReadAll(strFileName, Data);   
  41.     Parse(Data );  
  42. }  
  43.   
  44. void Csv::Parse(const string& strText)  
  45. {  
  46.     // 清除之前的数据  
  47.     m_GridData.clear();  
  48.   
  49.     // 分出行,分出字段。  
  50.     vector< string > ret;  
  51.     Split(strText, "\r\n", ret);  
  52.     for (size_t i = 0; i < ret.size(); ++i)  
  53.     {  
  54.         vector< string > Fields;  
  55.         Split(ret[i], ",", Fields);  
  56.         m_GridData.push_back(Fields);  
  57.     }  
  58.   
  59. }  
  60.   
  61. void Csv::Split(const string &str, const string& seperator, vector< string >& Ret)  
  62. {  
  63.     Ret.clear();  
  64.   
  65.     size_t nStartPosFound = str.find(seperator, 0);  
  66.     size_t nFieldStart = 0;  
  67.     for (; nStartPosFound != -1; nStartPosFound = str.find(seperator, nStartPosFound))  
  68.     {  
  69.         string strSub = str.substr(nFieldStart, nStartPosFound - nFieldStart);  
  70.         nStartPosFound = nStartPosFound + seperator.size();  
  71.         nFieldStart = nStartPosFound;  
  72.   
  73.         Ret.push_back(strSub);  
  74.     }  
  75.   
  76.     // 加入最后一个字段  
  77.     if (nFieldStart < str.size())  
  78.     {  
  79.         string strSub = str.substr(nFieldStart, str.size() - nFieldStart);  
  80.         Ret.push_back(strSub);  
  81.     }  
  82.   
  83. }  


  对代码做一些简要说明。设计Csv类首先考虑的就是“独立性”。Csv类不应该耦合(依赖)任何其他库,比如说:尽量避免使用Cocos2d-x,QT里面的函数。Cocos2d-x有跨平台的文件读取方法,QT有字符串的split函数。如果用了这些库的现成机制,会导致类的通用性下降。比如,在另一个非Cocos2d-x,非QT的项目中,就不能直接用了。

 

  同样地,从可移植性考虑。用VS编写读取文件,也不应该使用CreateFile, ReadFile等Win32 Api。fopen虽然不太好用,但由于其是C语言标准库的,移植性好,故用之。

 

  这里有一个问题需要注意下,用VS2013编辑和编译的话,可能会对fopen函数提示有错误。如下:




  这句英文大概是说:“fopen函数或者变量可能是不安全的。考虑使用fopen_s替代。要屏蔽这个错误,请使用_CRT_SECURE_NO_WARNINGS。”


  _CRT_SECURE_NO_WARNINGS怎样用呢?简单,在“项目属性 -> 配置属性 -> C/C++ -> 命令行 -> 其他选择”上,添加“/D _CRT_SECURE_NO_WARNING”。如下图:




  添加完后,重新编译。这样,我们的简单的CSV解析器就写好了。运行调试一下,看看是否运行正确




  OK,没问题。解析的结果,我们放在一个vector< vector< string > > 类型的数据结构中。这个数据结构比较灵活,可以模拟表示一个表格。实际上,vector< vector< string > > 也可以表示可动态调整大小的二维数组。


  2.简单实现的CSV解析器的问题


  之前用字符串处理方法split做的CSV解析器有问题吗?对于简单的数据,没问题。但仔细想下就会发现,字段之间用“,”英文逗号分隔,如果字段数据本身包含了逗号,怎么办?我们用Excel做下实验,看看Excel导出的CSV格式表格是怎样的。

 

  实验结果如下:



  从以上结果可以看到,对于包含了“,”字段分隔符的字段,是用“”””双引号把这个字段包围起来。但如果字段数据本身也包含了“””引号,又怎么办呢?继续做实验,如下图




  实验发现,如果字段数据本身存在“””引号,那么引号的前面也会放一个引号,前置的引号相当于C语言的字符串的转义字符。

 

  如果用一个字段表示一篇文章,有分段换行。那又是一个什么情况?做实验看看,实验结果如下:




  复制一段文章或者是有段落的一段文本,然后粘贴到Excel的一个字段中,最后Excel另存为CSV格式文件。用记事本打开那个CSV格式文件。发现用记事本看不到换行,这是什么情况?用UltraEdit查看下二进制数据




  发现,回车换行(/r/n),会被Excel替换成/n换行。而用记事本程序打开是看不到/n换行效果的。

 

  如果用记事本程序编辑CSV文件,敲入回车换行(/r/n),然后用Excel打开,会怎样?如下图:




  可以看到用记事本程序编辑CSV文件,人工按下回车键,会键入回车换行(/r/n)数据。用Excel打开的话,也显示了分行的效果。

 

  做了一些实验得出的结论是:CSV一个字段的数据是可以表示存在“,”字段分隔符的。如果有逗号字段分隔符存在,那么整个字段就会用双引号包围起来。如果字段数据本身有引号,那么会在之前放一个前置的引号表示转义,并且该字段也会用双引号包围起来。用双引号包围起来的字段数据里面,也可以有回车换行数据。

 

  这样,问题来了。我们用回车换行来分割出行,再用逗号分割出一行中不同的字段。这种简单的方法无法区分一个逗号是字段本身的数据,还是用来作为字段分隔符的。也无法区分一个回车换行,是字段里面的数据,还是用来分隔行的。


  3. CSV格式的定义


  上面是用Excel另存为CSV文件格式做实验来摸索CSV格式和一些显示特性。其实CSV是有格式规范的。

 

  关于CSV格式的定义,可以参考这里: 一篇百度文档的CSV格式定义 ,IETF上的CSV格式定义的文档


  4.用FSM(有限状态机)来做CSV格式解析。


  了解CSV格式的定义后,我们知道,要写一个完善的CSV解析器,不能简单地用字符串的Split方法了。

 

  我们的目标是:写一个CSV类,能正确解析Excel导出的任何CSV文件!也许有人会认为,用正则表达式可以搞定。用正则有几个问题,第一,C++的正则表达式通常都依赖于一些第三方库,QT,Boost等,C++11的正则也不是在所有的编译器上都实现了,这很大地影响了我们的CSV类通用性。第二,对于语法格式分析,正则不是万能的,至少文章作者本人是很难写出能解析CSV的正则。

 

  这里介绍一个很强大的方法:FSM(Finite State Machine有限状态机)。我第一次接触FSM是在罗森(KennethH.Rosen)著的《离散数学及其应用》。关于FSM的概念,可以百度下,看看百度百科的解释。也可以看看维基百科的解释:http://zh.wikipedia.org/wiki/%E6%9C%89%E9%99%90%E7%8A%B6%E6%80%81%E6%9C%BA

 

  FSM的应用很广,电路、游戏开发和编译原理等都会涉及。这里,我们就使用FSM来做CSV的解析。使用FSM一般是先画状态图,然后编码实现,调试,修改,反复这个过程。我画的CSV解析FSM状态图如下:




  从上图,可以看到FSM还可以做语法检查。实际上《编译原理》中的词法分析的扫描器,通常就是基于FSM。这个FSM要解析Excel导出的任何CSV格式文件应该是足够了。为了简化实现,不考虑一些语法容错。

 

  由于代码较多。我就不贴完整实现代码了。用我们之前实现的简单Csv类来改,就是砍掉Split函数,然后,重写Parse函数。


  大概步骤是:


  先定义状态


  1. // 定义状态  
  2. enum StateType  
  3. {  
  4.     // 新字段开始  
  5.     NewFieldStart ,  
  6.   
  7.     // 非引号字段  
  8.     NonQuotesField ,  
  9.   
  10.     // 引号字段  
  11.     QuotesField ,  
  12.   
  13.     // 字段分隔  
  14.     FieldSeparator ,  
  15.   
  16.     // 引号字段中的引号  
  17.     QuoteInQuotesField ,  
  18.   
  19.     // 行分隔符字符1,回车  
  20.     RowSeparator ,  
  21.   
  22.     // 语法错误  
  23.     Error ,  
  24. };  
 


  然后,写一个for循环,从头到尾遍历CSV文件数据,把遍历到的字符“喂给”FSM。FSM用一个Switch-Case语句实现。遍历结束后,再判断下状态,做一些相应处理。算法截图如下:




  做下测试,读取效果如何。先用Excel构造一个复杂的表格,字段里面包含“, 半角逗号”,““ 引号”,“\r\n 回车换行符”。如下所示:




  导出CSV文件。用Csv类读一下。结果如下图:




  OK。大功告成!一个相对完善的Csv类完成了!我们可是用编译原理涉及的技术搞定的哦,赞!

 

  我的Csv类完整实现(包括整个VS工程和测试CSV文件)可以在这里下载到:http://download.csdn.net/detail/stevenkylelee/7697315

 

  如果发现我的类读取Excel导出的CSV文件有什么bug。请联系我。我改!:)


  5.为什么使用CSV格式


  我思考一段时间,总结的理由有如下几点:


  1.CSV文件格式占用空间比较小,是文本文件。

  2.CSV文件可以用记事本打开,编辑修改方便。同时也可以用Excel打开。

  3.游戏项目中,策划通常喜欢用Excel做数值和配置。Excel可以直接另存为CSV文件。

  4.配置也可以用xml。Excel同样可以导出xml文件格式。xml不错,但C++的标准库没有xml的读取方法。通常C++项目读xml需要依赖第三方库。例如:TinyXml之类的。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值