今天遇到一个搞笑的问题,我有一个string a是读取xml文件获得的const char *之后转换成string得到的,还有一个别人传过来的string b。这俩string的内容打印出来是一模一样的,但是用string的compare()函数比较,就是不相等。后面又使用length()和size()函数看了一下,我本地的字符串a的长度总是比别人传过来的字符串长度小1。然后我将a和b逐个字符打印(按照%d)出来发现b比a多了一个字符‘\0’,对应的十进制就是0.
这个给我们造成了疑惑,我们觉得string的结束符不应该都是\0吗,计算length或者size的时候,这个\0是不计算在内的,为啥b里面还是有,且计算在内呢?经过一番查找,发现:
std::string (也就是C++中的string):标准并没有规定字符串必须以\0字符结尾。编译器在实现时既可以在结尾加上\0,也可以不加,这个是由编译器决定的,因为string是一个类,它的长度信息已经封装到类的私有变量里面了。
但是当通过c_str()或者data()(二者在c++ 11以及之后的标准中等价)转换得到的const char *时,会发现最后一个字符一定是\0。这个就是C语言中的string的结尾标志了(C语言中没有string类,都是char *)。
我们可以将字符串中间任意位置设置为\0,但是在C++中字符串会将\0当成一个正常字符处理(打印时会当成空格或者不占位置的字符输出)
#include <iostream>
#include <string>
#include <string.h>
#include<algorithm>
using namespace std;
int main()
{
string str = "hello123",str1 = "hello12";
str[3] = '\0';
cout<<str<<endl;
cout<<"str len :"<<str.length()<<endl;
return 0;
}
通过上述结论,我们可以发现,如果两个字符串的实际内容相同,只是差1个\0,那就将字符串都转换成const char *,然后调用C语言中比较两个字符的 函数strcomp(str.c_str(),str1.c_str())即可,这个可能是最简单的比较方案了。
#include <iostream>
#include <string>
#include <string.h>
#include<algorithm>
using namespace std;
int main()
{
string str = "hello123",str1 = "hello12";
str[7] = '\0';
cout<<str<<endl;
cout<<"str len :"<<str.length()<<endl;
for(int i=0;i<str.length();i++)
{
printf("%d<->%c\t",i,str[i]);
}
cout<<"\n"<<endl;
cout<<"c++ compare result: "<<str.compare(str1)<<endl;
cout<<"c compare result: "<<strcmp(str1.data(), str.data())<<endl;
return 0;
}
当然,除了上述方法之外,还可以先将b中最后一个字符\0移除,然后再比较:
#include <iostream>
#include <string>
#include <string.h>
#include<algorithm>
using namespace std;
int main()
{
string str = "hello123",str1 = "hello12";
str[7] = '\0';
cout<<str<<endl;
str.erase(std::remove(str.begin(),str.end(),'\0'),str.end());
cout<<"str len :"<<str.length()<<endl;
for(int i=0;i<str.length();i++)
{
printf("%d<->%c\t",i,str[i]);
}
cout<<"\n"<<endl;
// cout<<"c++ compare result: "<<str.compare(str1)<<endl;
// cout<<"c compare result: "<<strcmp(str1.data(), str.data())<<endl;
return 0;
}