sscanf函数用法及讲解汇总

sscanf函数和正则表达式

此文所有的实验都是基于下面的程序:
char str[10];

for (int i = 0; i < 10; i++) str[i] = '!';

执行完后str的值为

str = "!!!!!!!!!!"

我们把str的每个字符都初始化为惊叹号,当str的值发生变化时,使用printf打印str的值,对比先前的惊叹号,这样就可以方便的观察str发生了怎样的变化。下面我们做几个小实验,看看使用sscanf和正则表达式格式化输入后,str有什么变化。

实验1:

sscanf( "123456" , "%s" , str) ; ---------str的值为 "123456/0!!!"

这个实验很简单,把源字符串"123456"拷贝到str的前6个字符,并且把str的第7个字符设为null字符,也就是/0

实验2:

sscanf( "123456" , "%3s" , str) ; ---------str的值为 "123/0!!!!!!"

看到没有,正则表达式的百分号后面多了一个3,这告诉sscanf只拷贝3个字符给str,然后把第4个字符设为null字符。

实验3:

sscanf( "aaaAAA" , "%[a-z]" , str) ; ---------str的值为 "aaa/0!!!!!!"

从这个实验开始我们会使用正则表达式,括号里面的a-z就是一个正则表达式,它可以表示从a到z的任意字符,

在 继续讨论之前,我们先来看看百分号表示什么意思,%表示选择 ,%后面的是条件,比如实验1的"%s",s是一个条件,表示任意字符,"%s"的意思是:只 要输入的东西是一个字符,就把它拷贝给str。实验2的"%3s"又多了一个条件:只拷贝3个字符。实验3的“%[a-z]”的条件稍微严格一些,输入的 东西不但是字符,还得是一个小写字母的字符,所以实验3只拷贝了小写字母"aaa"给str,别忘了加上null字符。

实验4:

sscanf( "AAAaaaBBB" , "%[^a-z]" , str) ; ---------str的值为 "AAA/0!!!!!!"

对 于所有字符,只要不是小写字母,都满足"^a-z"正则表达式,符号^表示逻辑非。前3个字符都不是小写字符,所以将其拷贝给str,但最后3个字符也不 是小写字母,为什么不拷贝给str呢?这是因为当碰到不满足条件的字符后,sscanf就会停止执行,不再扫描之后的字符。

实验5:

sscanf( "AAAaaaBBB" , "%[A-Z]%[a-z]" , str) ; ---------段错误

这 个实验的本意是:先把大写字母拷贝给str,然后把小写字母拷贝给str,但很不幸,程序运行的时候会发生段错误,因为当sscanf扫描到字符a时,违 反了条件"%[A-Z]",sscanf就停止执行,不再扫描之后的字符,所以第二个条件也就没有任何意义,这个实验说明:不能使用%号两次或两次以上

实验6:

sscanf( "AAAaaaBBB" , "%*[A-Z]%[a-z]" , str) ; ---------str的值为 "aaa/0!!!!!!"

这 个实验出现了一个新的符号:%*,与%相反,%*表示过滤 满足条件的字符,在这个实验中,%*[A-Z]过滤了所有大写字母,然后再使用%[a-z]把之 后的小写字母拷贝给str。如果只有%*,没有%的话,sscanf不会拷贝任何字符到str,这时sscanf的作用仅仅是过滤字符串。

实验7:

sscanf( "AAAaaaBBB" , "%[a-z]" , str) ; ---------str的值为 "!!!!!!!!!!"

做完前面几个实验后,我们都知道sscanf拷贝完成后,还会在str的后面加上一个null字符,但如果没有一个字符满足条件,sscanf不会在str的后面加null字符,str的值依然是10个惊叹号。这个实验也说明了,如果不使用%*过滤掉前面不需要的字符,你永远别想取得中间的字符。 

实验8:

sscanf( "AAAaaaBC=" , "%*[A-Z]%*[a-z]%[^a-z=]" , str) ; ---------str的值为 "BC/0!!!!!!!"

这是一个综合实验,但这个实验的目的不是帮我们复习前面所学的知识,而是展示两个值得注意的地方:

注意1:%只能使用一次,但%*可以使用多次,比如在这个实验里面,先用%*[A-Z]过滤大写字母,然后用%*[a-z]过滤小写字母。

注意2:^后面可以带多个条件,且这些条件都受^的作用,比如^a-z=表示^a-z且^=(既不是小写字母,也不是等于号)。

实验9:

int k;

sscanf( "AAA123BBB456" "%*[^0-9]%i" &k) ; ---------k的值为123

首先,%*[^0-9]过滤前面非数字的字符,然后用%i把数字字符转换成int型的整数,拷贝到变量k,注意参数必须使用k的地址。

///

 

C语言sscanf函数的总结

在处理字符串的程序当中,经常会分析字符串,从一大长串的字符串截取我们需要的数据,这如果通过自己手写函数来分析,虽然可以,但当你知道sscanf的功能,那就自己写函数分析就显得多此一举。

这些函数的使用都很简单,总结一下,等下次使用一目了然。俗话说:好记性不如烂笔头,记录下来就是效率。

以下源代码是本人测试的源文件,附带讲解注释。

[cpp]  view plain copy
  1. /***************************************************** 
  2. ** Name         : sscanf.c  
  3. ** Author       : gzshun 
  4. ** Version      : 1.0 
  5. ** Date         : 2011-12 
  6. ** Description  : sscanf function 
  7. ******************************************************/  
  8. #include <stdio.h>  
  9. #include <stdlib.h>  
  10. #include <string.h>  
  11.   
  12. static void sscanf_test(void);  
  13.   
  14. static void sscanf_test(void)  
  15. {  
  16.     int ret;  
  17.     char *string;  
  18.     int  digit;  
  19.     char buf1[255];  
  20.     char buf2[255];  
  21.     char buf3[255];  
  22.     char buf4[255];  
  23.   
  24.     /*1.最简单的用法*/  
  25.     string = "china beijing 123";  
  26.     ret = sscanf(string, "%s %s %d", buf1, buf2, &digit);  
  27.     printf("1.string=%s\n", string);  
  28.     printf("1.ret=%d, buf1=%s, buf2=%s, digit=%d\n\n", ret, buf1, buf2, digit);  
  29.     /* 
  30.     **执行结果: 
  31.     **1.ret=3, buf1=china, buf2=beijing, digit=123 
  32.     **可以看出,sscanf的返回值是读取的参数个数 
  33.     */  
  34.   
  35.     /*2.取指定长度的字符串*/  
  36.     string = "123456789";  
  37.     sscanf(string, "%5s", buf1);  
  38.     printf("2.string=%s\n", string);  
  39.     printf("2.buf1=%s\n\n", buf1);  
  40.     /* 
  41.     **执行结果: 
  42.     **2.buf1=12345 
  43.     */  
  44.   
  45.     /*3.取到指定字符为止的字符串*/  
  46.     string = "123/456";  
  47.     sscanf(string, "%[^/]", buf1);  
  48.     printf("3.string=%s\n", string);  
  49.     printf("3.buf1=%s\n\n", buf1);  
  50.     /* 
  51.     **执行结果: 
  52.     **3.buf1=123 
  53.     */  
  54.   
  55.     /*4.取到指定字符集为止的字符串*/  
  56.     string = "123abcABC";  
  57.     sscanf(string, "%[^A-Z]", buf1);  
  58.     printf("4.string=%s\n", string);  
  59.     printf("4.buf1=%s\n\n", buf1);  
  60.     /* 
  61.     **执行结果: 
  62.     **4.buf1=123abc 
  63.     */  
  64.   
  65.     /*5.取仅包含指定字符集的字符串*/  
  66.     string = "0123abcABC";  
  67.     sscanf(string, "%[0-9]%[a-z]%[A-Z]", buf1, buf2, buf3);  
  68.     printf("5.string=%s\n", string);  
  69.     printf("5.buf1=%s, buf2=%s, buf3=%s\n\n", buf1, buf2, buf3);  
  70.     /* 
  71.     **执行结果: 
  72.     **5.buf1=123, buf2=abc, buf3=ABC 
  73.     */  
  74.   
  75.     /*6.获取指定字符中间的字符串*/  
  76.     string = "ios<android>wp7";  
  77.     sscanf(string, "%*[^<]<%[^>]", buf1);  
  78.     printf("6.string=%s\n", string);  
  79.     printf("6.buf1=%s\n\n", buf1);  
  80.     /* 
  81.     **执行结果: 
  82.     **6.buf1=android 
  83.     */  
  84.   
  85.     /*7.指定要跳过的字符串*/  
  86.     string = "iosVSandroid";  
  87.     sscanf(string, "%[a-z]VS%[a-z]", buf1, buf2);  
  88.     printf("7.string=%s\n", string);  
  89.     printf("7.buf1=%s, buf2=%s\n\n", buf1, buf2);  
  90.     /* 
  91.     **执行结果: 
  92.     **7.buf1=ios, buf2=android 
  93.     */  
  94.   
  95.     /*8.分割以某字符隔开的字符串*/  
  96.     string = "android-iphone-wp7";  
  97.     /* 
  98.     **字符串取道'-'为止,后面还需要跟着分隔符'-', 
  99.     **起到过滤作用,有点类似于第7点 
  100.     */  
  101.     sscanf(string, "%[^-]-%[^-]-%[^-]", buf1, buf2, buf3);  
  102.     printf("8.string=%s\n", string);  
  103.     printf("8.buf1=%s, buf2=%s, buf3=%s\n\n", buf1, buf2, buf3);  
  104.     /* 
  105.     **执行结果: 
  106.     **8.buf1=android, buf2=iphone, buf3=wp7 
  107.     */  
  108.   
  109.     /*9.提取邮箱地址*/  
  110.     string = "Email:beijing@sina.com.cn";  
  111.     sscanf(string, "%[^:]:%[^@]@%[^.].%s", buf1, buf2, buf3, buf4);  
  112.     printf("9.string=%s\n", string);  
  113.     printf("9.buf1=%s, buf2=%s, buf3=%s, buf4=%s\n\n", buf1, buf2, buf3, buf4);  
  114.     /* 
  115.     **执行结果: 
  116.     **9.buf1=Email, buf2=beijing, buf3=sina, buf4=com.cn 
  117.     */  
  118.   
  119.     /*10.过滤掉不想截取或不需要的字符串--补充, 
  120.     **在%号后面加一*号,代表过滤这个字符串,不读取 
  121.     */  
  122.     string = "android iphone wp7";  
  123.     sscanf(string, "%s %*s %s", buf1, buf2);  
  124.     printf("10.string=%s\n", string);  
  125.     printf("10.buf1=%s, buf2=%s\n\n", buf1, buf2);  
  126.     /* 
  127.     **执行结果: 
  128.     **10.android wp7 
  129.     */  
  130. }  
  131.   
  132. int main(int argc, char **argv)  
  133. {  
  134.     sscanf_test();  
  135.       
  136.     return 0;  
  137. }  
  138.   
  139. /* 
  140. **测试程序 
  141. **环境: 
  142. **Linux ubuntu 2.6.32-24-generic-pae #39-Ubuntu SMP Wed Jul 28 07:39:26 UTC 2010 i686 GNU/Linux 
  143. **gcc version 4.4.3 (Ubuntu 4.4.3-4ubuntu5) 
  144. ** 
  145. gzshun@ubuntu:~/c/sscanf$ gcc sscanf.c -o sscanf 
  146. gzshun@ubuntu:~/c/sscanf$ ./sscanf 
  147. 1.string=china beijing 123 
  148. 1.ret=3, buf1=china, buf2=beijing, digit=123 
  149.  
  150. 2.string=123456789 
  151. 2.buf1=12345 
  152.  
  153. 3.string=123/456 
  154. 3.buf1=123 
  155.  
  156. 4.string=123abcABC 
  157. 4.buf1=123abc 
  158.  
  159. 5.string=0123abcABC 
  160. 5.buf1=0123, buf2=abc, buf3=ABC 
  161.  
  162. 6.string=ios<android>wp7 
  163. 6.buf1=android 
  164.  
  165. 7.string=iosVSandroid 
  166. 7.buf1=ios, buf2=android 
  167.  
  168. 8.string=android-iphone-wp7 
  169. 8.buf1=android, buf2=iphone, buf3=wp7 
  170.  
  171. 9.string=Email:beijing@sina.com.cn 
  172. 9.buf1=Email, buf2=beijing, buf3=sina, buf4=com.cn 
  173.  
  174. 10.string=android iphone wp7 
  175. 10.buf1=android, buf2=wp7 
  176. */  


//

sscanf函数的高级用法

sscanf与scanf类似,都是用于输入的,只是后者以屏幕(stdin)为输入源,前者以固定字符串为输入源。

函数原型:

int scanf( const char *format [,argument]... );
其中的format可以是一个或多个:

{%[*] [width] [{h|l|I64|L}]  type|'_'|'/t'|'/n'|非%符号},

注:{a|b|c}表示a,b,c中选一,[d],表示可以有d也可以没有d。

²          width:宽度,一般可以忽略,用法如:

const  char sourceStr[] = "hello, world";

char buf[10] = {0};

sscanf(sourceStr, "%5s", buf);   //%5s,只取5个字符

cout << buf<< endl;

结果为:hello

²          {h|I|I64|L}:参数的size,通常h表示单字节size,I表示2字节 size, L表示4字节size(double例外),l64表示8字节size。

²          type :这就很多了,就是%s,%d之类。

²          特别的:%*[width] [{h|l|I64|L}]type 表示满足该条件的被过滤掉,不会向目标参数中写入值。如:

const char sourceStr[] = "hello, world";

char  buf[10] = {0};

sscanf(sourceStr, "%*s%s", buf);

//%*s表示第一个匹配到的%s被过滤掉,即hello被过滤了

cout << buf<< endl;

结果为:world

²          支持集合操作:

%[a-z]  表示匹配a到z中任意字符,贪婪性(尽可能多的匹配)

%[aB']  匹配a、B、'中一员,贪婪性

%[^a]   匹配非a的任意字符,贪婪性

和正则表达式很相似,而且仍然支持过滤,即可以有%*[a-z]。

 

例子:

1. 常见用法。

    char buf[512] = {0};

     sscanf("123456 ""%s"buf);

printf("%s/n"buf);

 

结果为:123456

2. 取指定长度的字符串。如在下例中,取最大长度为4字节的字符串。

    sscanf("123456 ""%4s"buf);

printf("%s/n"buf);

 

结果为:1234

3. 取到指定字符为止的字符串。如在下例中,取遇到空格为止字符串。

    sscanf("123456 abcdedf""%[^ ]"buf);

printf("%s/n"buf);

 

结果为:123456

4.  取仅包含指定字符集的字符串。如在下例中,取仅包含19和小写字母的字符串。

    sscanf("123456abcdedfBCDEF""%[1-9a-z]"buf);

printf("%s/n"buf);

 

结果为:123456abcdedf

5.  取到指定字符集为止的字符串。如在下例中,取遇到大写字母为止的字符串。

    sscanf("123456abcdedfBCDEF""%[^A-Z]"buf);

printf("%s/n"buf);

 

结果为:123456abcdedf

6、给定一个字符串iios/12DDWDFF@122,获取 / 和 @ 之间的字符串,先将 "iios/"过滤掉,再将非'@'的一串内容送到buf中

sscanf("iios/12DDWDFF@122""%*[^/]/%[^@]"buf);

printf("%s/n"buf);

 

结果为:12DDWDFF

7、给定一个字符串““hello, world”,仅保留world。(注意:“,”之后有一空格)

sscanf(“hello, world”,  "%*s%s",  buf);  

printf("%s/n"buf);

 

结果为:world

%*s表示第一个匹配到的%s被过滤掉,即hello被过滤了,如果没有空格则结果为NULL

8分隔字符串2006:03:18:

int a, b, c;

sscanf("2006:03:18", "%d:%d:%d", a, b, c);

 

9分隔字符串2006:03:18 - 2006:04:18:

char sztime1[16] = "", sztime2[16] = "";

sscanf("2006:03:18 - 2006:04:18", "%s - %s", sztime1, sztime2);

10分隔字符串2006:03:18-2006:04:18:

char sztime1[16] = "", sztime2[16] = "";

sscanf("2006:03:18-2006:04:18", "%[0-9,:] - %[0-9,:]", sztime1, sztime2);

仅仅是取消了‘-’两边的空格,却打破了%s对字符串的界定format-type中有%[]这样的type field。如果读取的字符串,不是以空格来分隔的话,就可以使用%[]。%[]类似于一个正则表达式。[a-z]表示读取a-z的所有字符,[^a-z]表示读取除a-z以外的所有字符。

sscanf的功能很类似于正则表达式, 但却没有正则表达式强大,所以如果对于比较复杂的字符串处理,建议使用正则表达式.

  

正则表达式的基本用法:

1、“.”为通配符,表示任何一个字符,例如:“a.c”可以匹配“anc”、“abc”、“acc”;

2、“[]”,在[]内可以指定要求匹配的字符,例如:“a[nbc]c”可以匹配“anc”、“abc”、"acc";但不可以匹配“ancc”,a到z可以写成[a-z],0到9可以写成[0-9];

3、数量限定符号,表示匹配次数(或者叫做长度)的符号,包括:

“*”  0次或者多次

“+”  1次或者多次

“?”  0次或者1次

“{n}”    匹配n次,n为整数

“{n,m}”  匹配从n到m之间的某个数的次数;n和m都是整数;

“{n,}”   匹配n到无穷次之间任意次数;

“{,m}”   匹配0到m之间任意次数;

数量限定符号放到匹配格式的后面,例如:电话号码:024-84820482,02484820482(假设前面3或者4位,后面7或者8位,并且中间的减号可有可无),都是符合规定的,那么可以用如下格式来匹配:[0-9]{3,4} /-? [0-9]{7,8};注意:“/”为转义字符,因为“-”在正则表达式用有代表一个范围的意义,例如:前面所说的[0-9],所以它需要转义字符“/”进行转义才可使用;

4、^为否符号,表示不想匹配的符号,例如:[^z][a-z]+可以匹配所有除"z"开头的以外的所有字

如果^放到[]的外边则表示以[]开头的字符串;^[az][a-z]+表示a或者z开头的长度大于等于2的英文字符串;

5、“|”或运算符,例如:a[n|bc|cb]c可以匹配“abcc”,“anc”,“acbc”;

6、“$”以它前面的字符结尾的;例如:ab+$就可以被“abb”,“ab”匹配;

7、一些简单表示方法:/d表示[0-9];/D表示[^0-9];/w表示[A-Z0-9];/W表示[^A-Z0-9];/s表示[/t/n/r/f],就是空格字符包括tab,空格等等;/S表示[^/t/n/r/f],就是非空格字符;

 


  • 18
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拿破仑的海阔天空

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值