用boost::tokenizer分割字符串

最新推荐文章于 2024-08-12 17:01:58 发布

Rechar_Deng

最新推荐文章于 2024-08-12 17:01:58 发布

阅读量3.1k

点赞数

分类专栏： boost C++ 文章标签： boost 字符串分割

本文链接：https://blog.csdn.net/acaiwlj/article/details/49998959

版权

boost::tokenizer是一个用于高效字符串分割的工具，支持多种分隔符和特殊情况处理，如CSV格式解析、按偏移量分割等。通过TokenizerFunc、Iterator和Type参数灵活配置，可以实现对输入字符串的定制化分解。它提供了保留或抛弃分隔符的选项，并在遇到连续分隔符时可以选择输出空白单词或跳过。

摘要由CSDN通过智能技术生成

说明：本文是boost::tokenizer类的整理，原文出处为boost的document，此处仅作学习笔记之用。

1、boost::tokenizer

boost::tokenizer提供了一种灵活、易用的方式来将一个字符串分解为一个字符串列表。这是个模板类，类的声明为：

template <
        class TokenizerFunc = char_delimiters_separator<char>, 
        class Iterator = std::string::const_iterator,
        class Type = std::string
  >
  class tokenizer

它的核心包括，

TokenizerFunc：决定了字符串分割方式
Iterator：确定分割后的字符串的迭代类型
Type：需要分割的字符串类型

boost::tokenizer的构造函数有以下两个：

tokenizer(Iterator first, Iterator last,const TokenizerFunc& f = TokenizerFunc()) 
template<class Container>
tokenizer(const Container& c,const TokenizerFunc& f = TokenizerFunc())

其中参数的意义如下：

  
  
  
   
    
     参数
     描述
    
    
     c
     一个包含被分解的序列的容器。注：c.begin()
 和 c.end() 必须可以转换为模板参数 Iterator.
    
    
     f
     一个符合
 TokenizerFunction 的函数对象，用于对序列进行分解。
    
    
     first
     迭代器，表示被分解序列的开始位置。
    
    
     last
     迭代器，表示被分解序列的末尾位置。

tokenizer的使用很简单，以下示例为使用默认参数进行分割字符串，

#include<iostream>
#include<boost/tokenizer.hpp>
#include<string>

int main(){
   using namespace std;
   using namespace boost;
   string s = "This is,  a test";
   tokenizer<> tok(s);
   //tokenizer通过迭代器来访问分割后的字符序列，字符分割是在遍历过程中进行的，而不是构造函数
   for(tokenizer<>::iterator beg=tok.begin(); beg!=tok.end();++beg){
       cout << *beg << "\n";
   }
}

tokenizer中使用的TokenFunc在boost标准中有其他3个实现，它们分别有不同的分割规则：

char_seperator ：根据分隔符进行分割，可以包含多个分割字符
escaped_list_seperator：用于对csv文件进行分割
offset_seperator：根据偏移量进行分割

2、boost::char_seperator

char_separator 类基于字符分隔符来分解一个字符序列，就象

最低0.47元/天解锁文章

Rechar_Deng

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

参数	描述
c	一个包含被分解的序列的容器。注：c.begin() 和 c.end() 必须可以转换为模板参数 Iterator.
f	一个符合 TokenizerFunction 的函数对象，用于对序列进行分解。
first	迭代器，表示被分解序列的开始位置。
last	迭代器，表示被分解序列的末尾位置。