目录
string及其模拟实现::
1.string类介绍
1.string类是basic_string模板类的一个实例,它使用char来实例化basic_string模板类,并用char_traits和allocator作为basic_string的默认参数。
2.string是表示字符串的字符类。
3.该类的接口与常规容器的接口基本相同,再添加了一些专门用来操作string的常规操作。
4.注意这个类独立于所使用的编码来处理字节:如果用来处理多字节或变长字符(如UTF-8)的序列,这个类的所有成员(如长度或大小)以及它的迭代器,将仍然按照字节来操作而不是实际编码的字符来操作。
5.string在底层实际是:basic_string模板类的别名,typedef basic_string<char,char_traits,allocator> string。
6.不能操作多字节或者变长字符的序列。
扩展:
字符集:是一个系统支持的所有抽象字符的集合,也就是一系列字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等,常见的字符集有:ASCII字符集、GB2312字符集(主要用于处理中文汉字)、GBK字符集(主要用于处理中文汉字)、Unicode字符集等。
字符编码:是一套法则,使用该法则能够对自然语言的字符的一个字符集(如字母表或音节表)与计算机能识别的二进制数字进行配对。即它能在符号集合与数字系统之间建立对应关系,是信息处理的一项基本技术。通常人们用符号集合(一般情况下就是文字)来表达信息,而计算机的信息处理系统则是以二进制的数字来存储和处理信息的。字符编码就是将符号转换为计算机能识别的二进制编码。
一般一个字符集等同于一个编码方式,ANSI体系(ANSI是一种字符代码,为使计算机支持更多语言,通常使用0x80~0xFF范围的2个字节来表示一个字符)的字符集如ASCII、ISO 8859-1、GB2312、GBK等等都是如此。一般我们说一种编码都是针对某一特定的字符集。
一个字符集也可以有多种编码方式,例如UCS字符集(也是Unicode使用的字符集)上有UTF-8、UTF-16、UTF-32等编码方式。
从计算机字符编码的发展历史角度来看,大概经历了三个阶段:
第一个阶段:ASCII字符集和ASCII编码
计算机刚开始只支持英语,其他语言不能够在计算机上存储和显示。ASCII用一个字节的7个比特位表示一个字符,第一个位置0.后来为了更多的欧洲常用字符又对ASCII进行了扩展,又有了EASCII,EASCII用8位表示一个字符,使它能多表示128个字符,支持了部分西欧字符。
第二个阶段:ANSI编码(本地化)
为使计算机支持更多语言,通常使用0x80~0xFF范围的两个字节来表示一个字符。比如汉字 '中' 在中文操作系统中使用 [0xD6,0xD0] 这两个字节存储。不同的国家和地区制定了不同的标准,由此产生了GB2312,BIG5,JIS等各自的编码标准。这些使用2个字节来代表一个字符的各种汉字延申编码方式称为ANSI编码,在简体中文系统下,ANSI编码代表GB2312编码,在日文操作系统下,ANSI编码代表JIS编码。不同ANSI编码之间互不兼容,当信息在国际化间交流时,无法将属于两种语言的文字,存出在同一段ANSi编码的文本中。
第三个阶段:Unicode(国际化)
为了使国际间信息交流更加方便,国际组织制定了Unicode字符集,为各种语言中的每一个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台进行文本交换、处理的要求。Unicode常见的有三种编码方式:UTF-8(1、2、3、4个字节表示)、UTF-16(2个字节表示)、UTF-32(4个字节表示)。
为什么string类要实现成模板?
我们印象中,单个字符就是一个字节,也就是char类型,但是由于编码问题,会有2字节和4字节的字符类型。
类型 | 编码 | 类型 |
string | UTF-8 | char |
wstring | Unicode | wchar_t |
u16string | UTF-16 | char16_t |
u32string | UTF-32 | char32_t |
正是由于了字符串的多种类型,所以存在了basic_strng模板。
2.string常用接口说明
在使用string类时,必须包含#include<string>以及using namespace std;
1.string类对象的常见构造
函数名称 | 功能说明 |
string() | 构造空的string类对象,即空字符串 |
string(const char* s) | 用C-string来构造string类对象 |
string(size_t n,char c) | string类对象中包含n个字符c |
string(const string& s) | 拷贝构造函数 |
#include<iostream>
#include<string>
using namespace std;
void TestString1()
{
string s1;
string s2("hello world");
string s3 = "hello world";
string s4(10, '*');
cout << s1 << endl;
cout << s2 << endl;
cout << s3 << endl;
cout << s4 << endl;
string s5(s2);
string s6 = s2;
cout << s5 << endl;
cout << s6 << endl;
string s7("hello world", 5);
cout << s7 << endl;
string s8(s7, 2, 3);
cout << s8 << endl;
}
int main()
{
TestString1();
return 0;
}
2.string类对象的容量操作:
函数名称 | 功能说明 |
size | 返回字符串有效字符长度 |
length | 返回字符串有效字符长度 |
capacity | 返回总空间大小 |
empty | 检测字符串是否为空串,是返回true,否则返回false |
clear | 清空有效字符 |
reserve | 为字符串预留空间 |
resize | 将有效字符的个数改成n个,外出的多余空间用字符c填充 |
注意:
1.size()与length()方法底层实现原理完全相同,引入size()的原因是为了和其他容器的接口保持一致,一般情况下基本都是用size()。
2.clear()只是将string中有效字符清空,不改变底层空间大小。
3.resize(size_t n)与resize(size_t n,char c)都是将字符串中有效字符个数改变到n个,不同的是当字符个数增多时:resize(n)用0来填充多出的元素空间,resize(size_t n,char c)用字符c来填充多出的元素空间。注意:resize在改变元素个数时,如果是将元素个数增多,可能会改变底层容量的大小,如果是将元素个数减少,底层空间总大小不变。
4.resize是改变它的size,reserve是改变它的capacity。但要注意resize既会改变size也可能影响capacity。
5.reserve(size_t res_arg = 0):为string预留空间,不改变有效元素个数,当reserve的参数小于string的底层空间总大小时,reserve不会改变容量大小。
3.string类对象的访问及遍历操作:
函数名称 | 功能说明 |
operator[] | 返回pos位置的字符 |
begin + end | begin()获取第一个字符的迭代器 + end()获取最后一个字符下一个位置的迭代器 |
rbegin + rend | rbegin():获取倒数第一个有效字符的迭代器 + rend()获取第一个字符的迭代器 |
范围for | C++11支持更简洁的范围for的新遍历方式 |
4.string类对象的修改操作:
函数名称 | 功能说明 |
push_back | 在字符串后尾插字符c |
append | 在字符串后追加一个字符串 |
operator+= | 在字符串后追加字符串str |
c_str | 返回C格式字符串 |
find + npos | 从字符串pos位置开始往后找字符c,返回该字符在字符串中的位置 |
rfind | 从字符串pos位置开始往前找字符c,返回该字符在字符串中的位置 |
substr | 在str中从pos位置开始,截取n个字符,然后将其返回 |
注意:
1.在string尾部追加字符时,s.push_back(c) / s.append(1,c) / s += 'c'三种的实现方式差不多,一般情况下string类的+=操作用的比较多,+=操作不仅可以连接单个字符,还可以连接字符串。
2.对string操作时,如果能够大概预估到放多少字符,可以先通过reserve把空间预留好。
5.string类非成员函数:
函数名称 | 功能说明 |
operator+ | 尽量少用,因为传值返回,导致深拷贝效率低 |
operator>> | 输入运算符重载 |
operator<< | 输出运算符重载 |
getline | 获取一行字符串 |
relational operators | 大小比较 |
注:流提取是不能接收到空格和换行的,需要接收一行的时候需要使用getline
6.vs和g++下string结构的说明
注意:下述结构是在32位平台下进行验证,32位平台下指针占4个字节。
vs下string的结构:
string总共占28个字节,内部结构稍微复杂一点,先是有一个联合体,联合体用来定义string中字符串的存储空间:
1.当字符串长度小于16时,使用内部固定的字符数组来存放
2.当字符串长度大于等于16时,从堆上开辟空间
union _Bxty
{
// storage for small buffer or pointer to larger one
value_type _Buf[_BUF_SIZE];
pointer _Ptr;
char _Alias[_BUF_SIZE]; // to permit aliasing
} _Bx;
这种设计也是有一定道理的,大多数情况下字符串的长度都小于16,那string对象创建好之后,内部已经有了16个字符数组的固定空间,不需要通过堆创建,效率高
其次:还有一个size_t字段保存字符串长度,一个size_t字段保存从堆上开辟空间总的容量
最后:还有一个指针做一些其他事情。
故总共占16+4+4+4 = 28个字节
g++ 下string的结构:
g++下,string是通过写时拷贝实现的,string对象总共占4个字节,内部只包含了一个指针,该指针将来指向一块堆空间,内部包含了如下字段:
1.空间总大小
2.字符串有效长度
3.引用计数
4.指向堆空间的指针,用来存储字符串
struct _Rep_base
{
size_type _M_length;
size_type _M_capacity;
_Atomic_word _M_refcount;
};
写时拷贝是一种拖延症,写时拷贝是在浅拷贝的基础之上增加了引用计数的方式实现的。
引用计数:用来记录资源使用者的个数。在构造时,将资源的计数给成1,每增加一个对象使用该资源,就给计数增加1,当某个对象销毁时,先给该计数减一,然后再检查是否需要释放资源,如果计数为1,说明该对象是资源的最后一个使用者,将该资源释放,否则就不能释放,因为还有其他对象在使用该资源。
像begin(), end(), rbegin(), rend(), operator[]的非const版本和const版本也都实现了
但像size这种类型的函数就只实现了const版本 push_back只实现了非const版本
那么哪些函数只实现const/非const版本 哪些函数两者都实现了呢
1.只读功能的函数实现const版本即可
2.只写功能的函数提供非const版本
3.读写功能的函数实现const+非const版本
string相关习题训练::
1.仅仅反转字母
//代码1:
class Solution
{
public:
string reverseOnlyLetters(string s)
{
size_t begin = 0, end = s.size() - 1;
while (begin < end)
{
while (begin < end && !isalpha(s[begin]))
{
++begin;
}
while (begin < end && !isalpha(s[end]))
{
--end;
}
swap(s[begin], s[end]);
++begin;
--end;
}
return s;
}
};
//代码2:
class Solution
{
public:
bool isLetter(char ch)
{
if (ch >= 'a' && ch <= 'z')
return true;
if (ch >= 'A' && ch <= 'Z')
return true;
return false;
}
string reverseOnlyLetters(string S)
{
if (S.empty())
return S;
size_t begin = 0, end = S.size() - 1;
while (begin < end)
{
while (begin < end && !isLetter(S[begin]))
++begin;
while (begin < end && !isLetter(S[end]))
--end;
swap(S[begin], S[end]);
++begin;
--end;
}
return S;
}
};
2.找字符串中第一个只出现一次的字符
class Solution
{
public:
int firstUniqChar(string s)
{
int count[26] = { 0 };
//统计次数
for (auto ch : s)
{
count[ch - 'a']++;
}
//找第一个只出现一次的字符
for (size_t i = 0; i < s.size(); ++i)
{
if (count[s[i] - 'a'] == 1)
{
return i;
}
}
return -1;
}
};
3.字符串里面最后一个单词的长度
int main()
{
string str;
getline(cin, str);
size_t pos = str.rfind(' ');
cout << str.size() - pos - 1 << endl;
return 0;
}
4.验证一个字符串是否是回文
class Solution
{
public:
bool isLetterOrNumber(char ch)
{
return (ch >= '0' && ch <= '9')
|| (ch >= 'a' && ch <= 'z')
|| (ch >= 'A' && ch <= 'Z');
}
bool isPalindrome(string s)
{
for (auto& ch : s)
{
if (ch >= 'a' && ch <= 'z')
{
ch -= 32;
}
}
int begin = 0;
int end = s.size() - 1;
while (begin < end)
{
while (begin < end && !isLetterOrNumber(s[begin]))
{
++begin;
}
while (begin < end && !isLetterOrNumber(s[end]))
{
--end;
}
if (s[begin] != s[end])
{
return false;
}
++begin;
--end;
}
return true;
}
};
5.字符串相加
//方法一:
class Solution
{
public:
string addStrings(string num1, string num2)
{
int end1 = num1.size() - 1, end2 = num2.size() - 1;
//最开始进位赋值为0
int carry = 0;
string retStr;
retStr.reserve(max(num1.size(), num2.size()) + 1);
while (end1 >= 0 || end2 >= 0)
{
int val1 = end1 >= 0 ? num1[end1] - '0' : 0;
int val2 = end2 >= 0 ? num2[end2] - '0' : 0;
int ret = val1 + val2 + carry;
carry = ret / 10;
ret %= 10;
retStr.insert(0, 1, ret + '0');
--end1;
--end2;
}
if (carry == 1)
{
retStr.insert(0, 1, '1');
}
return retStr;
}
};
//方法二:
class Solution
{
public:
string addStrings(string num1, string num2)
{
int end1 = num1.size() - 1, end2 = num2.size() - 1;
//最开始进位赋值为0
int carry = 0;
string retStr;
retStr.reserve(max(num1.size(), num2.size()) + 1);
while (end1 >= 0 || end2 >= 0)
{
int val1 = end1 >= 0 ? num1[end1] - '0' : 0;
int val2 = end2 >= 0 ? num2[end2] - '0' : 0;
int ret = val1 + val2 + carry;
carry = ret / 10;
ret %= 10;
retStr += ('0' + ret);
--end1;
--end2;
}
if (carry == 1)
{
retStr += '1';
}
reverse(retStr.begin(), retStr.end());
return retStr;
}
};
6.翻转字符串
//思路:
//收尾交换,进行翻转
class Solution
{
public:
void reverseString(vector<char>& s)
{
if (s.empty())
{
return;
}
int start = 0;
int end = s.size() - 1;
while (start < end)
{
swap(s[start], s[end]);
start++;
end--;
}
}
};
7.翻转字符串II:区间部分翻转
class Solution
{
public:
//翻转start到end区间的字符串
void Reverse(string& s, int start, int end)
{
char tmp;
end--;
while (start < end)
{
tmp = s[start];
s[start] = s[end];
s[end] = tmp;
start++;
end--;
}
}
string reverseStr(string s, int k)
{
int len = s.size();
for (int i = 0; i < len; i += 2 * k)
{
if (i + k < len)
{
Reverse(s, i, i + k);
}
else
{
Reverse(s, i, len);
}
}
return s;
}
};
8.翻转字符串III:翻转字符串中的单词
//思路:
//1. 通过查找空格,分割单词
//2. 针对分割的单词进行翻转
class Solution
{
public:
void Reverse(string& s, int start, int end)
{
char tmp;
while (start < end)
{
tmp = s[start];
s[start] = s[end];
s[end] = tmp;
start++;
end--;
}
}
string reverseWords(string s)
{
size_t start = 0;
size_t end = 0;
while (start < s.size())
{
end = s.find(' ', start);
if (end == string::npos)
{
end = s.size();
break;
}
Reverse(s, start, end - 1);
start = end + 1;
}
Reverse(s, start, end - 1);
return s;
}
};
9.字符串相乘
//思路:
//1. 下翻转数据
//2. 按位相乘
//3. 将乘得的结果进行错位相加,模拟乘法的笔算过程
class Solution
{
public:
void MulItem(string& tmp, string& num1, char a)
{
int i = 0, sign = 0;
int mul = 0;
while (i < num1.size())
{
mul = (num1[i] - '0') * (a - '0') + sign;
if (mul >= 10)
{
sign = mul / 10;
mul %= 10;
}
else
{
sign = 0;
}
tmp.push_back(mul + '0');
i++;
}
if (sign > 0)
{
tmp.push_back(sign + '0');
}
}
//对应为相加,sign进位采用引用传递
int AddItem(int a, int b, int& sign)
{
int add = a + b + sign;
if (add >= 10)
{
sign = 1;
add -= 10;
}
else
{
sign = 0;
}
return add;
}
//错位相加
void MoveAdd(string& result, string& tmp, int k)
{
int i, j;
i = k;
j = 0;
int sign = 0;
while (i < result.size() && j < tmp.size())
{
result[i] = AddItem(result[i] - '0', tmp[j] - '0', sign) + '0';
i++;
j++;
}
while (i < result.size() && sign)
{
result[i] = AddItem(result[i] - '0', 0, sign) + '0';
i++;
}
while (j < tmp.size())
{
int v = AddItem(0, tmp[j] - '0', sign);
result.push_back(v + '0');
j++;
}
if (sign)
{
result.push_back(sign + '0');
}
}
string multiply(string num1, string num2)
{
//先翻转数据,方便进位处理
reverse(num1.begin(), num1.end());
reverse(num2.begin(), num2.end());
string tmp, result;
for (int i = 0; i < num2.size(); ++i)
{
//使用num2的每一个数据乘以num1
MulItem(tmp, num1, num2[i]);
//将乘得的结果进行错位相加
MoveAdd(result, tmp, i);
tmp.clear();
}
while (result.size() != 1 && result.back() == '0')
{
result.pop_back();
}
//翻转数据,恢复数据
reverse(result.begin(), result.end());
return result;
}
};
10.字符串转换成整数
//思路:
//1. 要考虑正负数
//2. 要考虑数据是否溢出
class Solution
{
public:
int StrToInt(string str)
{
int len = str.size();
int flag = 1;
if (len == 0)
{
return 0;
}
const char* cstr = str.c_str();
if (cstr == NULL)
{
return 0;
}
int i = 0;
if (cstr[i] == '+')
{
i++;
flag = 1;//如果str[i]为'+',str[i]顺序后移,并令标志flag为1,表示为正数
}
else if (cstr[i] == '-')
{
i++;
flag = -1;//如果str[i]为'-',str[i]顺序后移,并令标志flag为-1,表示为负数
}
long long num = 0;
while (cstr[i] != '\0')
{
if (cstr[i] >= '0' && cstr[i] <= '9')
{
//每遍历一个在0-9间的字符,就将其输入到num中
num = num * 10 + (cstr[i] - '0');//下一次输入到num中时要加上上一次*10的结果,即上一次的数左移一位(十进制下)
//如果数据溢出,则返回0
if ((flag > 0 && num > 0x7fffffff) || (flag < 0 && num>0x80000000))
{
return 0;
}
i++;
}
else
{
return 0;
}
}
if (flag < 0)
{
num = num * -1;
}
return (int)num;
}
};