这篇对于string类的实现会一步步来,从错误到正确,尽量展现可能会忽略掉的细节。
1、初始化列表
先写下来这些代码
String.h
#pragma once
#include <string.h>
#include <iostream>
using namespace std;
namespace zyd
{
class string
{
public:
string()
:_str(nullptr)
,_size(0)
,_capacity(0)
{}
string(const char* str)
:_str(str)
,_size(strlen(str))
,_capacity(strlen(str))
{}
const char* c_str()
{
return _str;
}
private:
const char* _str;
size_t _size;
size_t _capacity;
};
void test_string1()
{
string s1;
string s2("hello world");
cout << s1.c_str() << endl;
cout << s2.c_str() << endl;
}
}
Test.cpp
#include "String.h"
int main()
{
zyd::test_string1();
return 0;
}
私有成员变量里,_str用const修饰,是为了防止权限放大,比如在string(const char* str)里,_str(str),如果不是用const修饰的_str,就会报错。
现在的结果是程序崩了。哪个地方崩了?流插入流提取是自动识别类型的,遇到const char*的变量,会解引用,访问内容,而在我们写的初始化列表里,_str被初始化成了nullptr,所以cout直接遇到了nullptr。并且s2也有问题,hello world会是一个const修饰的常量字符串,在常量区存储,访问pos位置的字符,检查大小准备扩容等函数时这方面错误会更加放大。所以初始化列表那里出了问题。
如果要修改内容,那么我们可以先new一个空间,再放入内容。不过三个变量就不都放在一起了,如果_str(new…)那么下面两个还需要strlen两次。简化一下。
string(const char* str)
:_size(strlen(str))
{
_capacity = _size;
_str = new char[_capacity + 1];
strcpy(_str, str);
}
+1是给’\0’做准备。因为strcpy,_str就不能是const char了,得是char类型。
另一个无参函数,也是要new,不过要写成new char[1],方便析构函数。
string()
:_str(new char[1])
,_size(0)
,_capacity(0)
{
_str[0] = '\0';
}
~string()
{
delete[] _str;
_str = nullptr;
_size = _capacity = 0;
}
现在就没错了
string()
:_str(new char[1])
,_size(0)
,_capacity(0)
{
_str[0] = '\0';
}
string(const char* str)
:_size(strlen(str))
{
_capacity = _size;
_str = new char[_capacity + 1];
strcpy(_str, str);
}
const char* c_str()
{
return _str;
}
~string()
{
delete[] _str;
_str = nullptr;
_size = _capacity = 0;
}
并且也可以修改字符串,写上pos位置函数和返回大小函数。
char& operator[](size_t pos)
{
assert(pos < _size);
return _str[pos];
}
size_t size()
{
return _size;
}
比如s2[0]++,就变成iello world。
继续简化,初始化列表可以缩减成一个全缺省函数。
string(const char* str = "")
:_size(strlen(str))
{
_capacity = _size == 0 ? 4 : _size;
_str = new char[_capacity + 1];
strcpy(_str, str);
}
缺省值如果是nullptr,肯定是不行,也不能是’\0’,类型不匹配,倒是可以写成"\0",不过给""更好,因为字符串默认会以\0结束。
2、拷贝构造函数和赋值函数
添加一个s3,写拷贝构造函数。如果用默认的,编译器会崩溃,因为浅拷贝,会出现同一空间析构两次并且修改一个会影响另一个的问题,经典案例。
string(const string& s)
:_size(s._size)
,_capacity(s._capacity)
{
_str = new char[s._capacity + 1];
strcpy(_str, s._str);
}
string s3(s2);
cout << s1.c_str() << endl;
cout << s3.c_str() << endl;
s2[0]++;
cout << s2.c_str() << endl;
这里的深拷贝是先把size和capacity拿到手,然后new一个空间再去拷贝过去。
除此之外,还有赋值需要写。
s1 = s3;
cout << s1.c_str() << endl;
赋值应该怎么写?如果s1和s3两个字符串长度相同,那就直接覆盖;s1 < s3,就不能这样了,s1就得重开空间;s1 > s3,这样似乎是可以直接覆盖过去的,但假设s1很大,s3很小,那么s1后面大部分的空间我们都没有用到它们,虽然没有造成内存泄漏,但浪费空间里。所以这里的办法就是无论怎样,s1都释放点,重开空间,然后s3覆盖过去。
string& operator=(const string& s)
{
if (this != &s)
{
delete[] _str;
_str = new char[s._capacity + 1];
strcpy(_str, s._str);
_size = s._size;
_capacity = s._capacity;
}
return *this;
}
加上判断是因为如果自己给自己赋值,不加判断的话会出现随机值,因为有一开始就释放掉自己了。但这个程序仍然不行,它先手破坏掉了s1,如果new失败了,那么整个函数就失败了,s1也没了,所以得用个替死鬼。
string& operator=(const string& s)
{
if (this != &s)
{
char* tmp = new char[s._capacity + 1];
strcpy(tmp , s._str);
delete[] _str;
_str = tmp;
_size = s._size;
_capacity = s._capacity;
}
return *this;
}
3、循环输出,迭代器
现在遍历一下string类对象
string s1("hello world");
for (size_t i = 0; i < s1.size(); ++i)
{
s1[i]++;
}
cout << endl;
for (size_t i = 0; i < s1.size(); ++i)
{
cout << s1[i] << " ";
}
cout << endl;
假如把这个输出的循环代码放到一个函数里,那么为了不被改变,要加const,后面跟引用,括号里就是const string& s,这样在函数体内要就得注意了,因为这已经出现了权限放大的问题,那[] ,size这两个函数就都加上const,但是加上const就意味着无法修改。那就重载一下,一个const,一个不加const即可。
const char& operator[](size_t pos) const
{
assert(pos < _size);
return _str[pos];
}
char& operator[](size_t pos)
{
assert(pos < _size);
return _str[pos];
}
size_t size() const
{
return _size;
}
void Print(const string& s)
{
for (size_t i = 0; i < s.size(); ++i)
{
cout << s[i] << " ";
}
cout << endl;
}
除去用下标遍历string的方式,还可以用范围for,迭代器来进行遍历。
typedef char* iterator;
iterator begin()
{
return _str;
}
iterator end()
{
return _str + _size;
}
string::iterator it = s1.begin();
while (it != s1.begin())
{
cout << *it << " ";
++it;
}
cout << endl;
迭代器会比较自由点,可以先把每个字符往前挪一位,(*it)–,h变成g。
for (auto ch : s1)
{
cout << ch << " ";
}
cout << endl;
但范围for底层也就是迭代器,并且傻瓜式地做法,调用的就是begin,end,如果定义的是Begin,End函数,那么范围for就失效了,所以自定义实现的时候必须得写begin和end才能使用迭代器。
在begin和end函数处,还需要加上const的两个函数,有时范围for的s是一个const对象,调用非const的begin和end就不可行。
typedef const char* const_iterator;
const_iterator begin() const
{
return _str;
}
const_iterator end() const
{
return _str + _size;
}
也typedef一个const的迭代器名字,区分开非const迭代器。但const迭代器就是只读的了。
void Print(const string& s)
{
for (size_t i = 0; i < s.size(); ++i)
{
cout << s[i] << " ";
}
cout << endl;
string::const_iterator it = s.begin();
while (it != s.end())
{
cout << it;
++it;
}
cout << endl;
for (auto ch : s)
{
cout << ch << " ";
}
cout << endl;
}
一个常规写法,一个迭代器写法,一个const写法。
string类有比较大小函数。比较的方法就是一个个比较ANSCII码值。
bool operator>(const string& s) const
{
return strcmp(_str, s._str) > 0;
}
bool operator==(const string& s) const
{
return strcmp(_str, s._str) == 0;
}
bool operator>=(const string& s) const
{
return *this > s || *this == s;
}
bool operator<(const string& s) const
{
return !(*this >= s);
}
bool operator<=(const string& s) const
{
return !(*this > s);
}
bool operator!=(const string& s) const
{
return !(*this == s);
}
不修改成员变量数据的函数,就加上const,防止用const对象调用它们。
测试一下
void test_string3()
{
string s1("hello world");
string s2("hello");
string s3("xyz");
cout << (s1 < s2) << endl;
cout << (s2 >= s3) << endl;
cout << (s3 == s1) << endl;
}
4、插入删除等
void reserve(size_t n)
{
char* tmp = new char[n + 1];
strcpy(tmp, _str);
delete[] _str;
_str = tmp;
_capacity = n;
}
void push_back(char ch)
{
if (_size + 1 > _capacity)
{
reserve(_capacity * 2);
}
_str[_size] = ch;
++_size;
_str[_size] = '\0';
}
void append(const char* str)
{
size_t len = strlen(str);
if (_size + len > _capacity)
{
reserve(_size + len);
}
strcpy(_str + _size, str);
_size += len;
}
不仅要插入一个字符,还有整个字符串。
简化一下写法就可以用+=
string& operator+=(const char* str)
{
append(str);
return *this;
}
string& operator+=(const char ch)
{
push_back(ch);
return *this;
}
接下来要写一个resize函数,写这个之前,先看一下之前reserve函数的问题,如果要开的空间比之前的小,会出现越界的问题,这时候不如不调整空间大小,什么也不做,在原本的基础上加一个判断。
void reserve(size_t n)
{
if (n > _capacity)
{
char* tmp = new char[n + 1];
my_strcpy(tmp, _str);
delete[] _str;
_str = tmp;
_capacity = n;
}
}
//测试代码
string s1("hello worldddddddddddd");
cout << s1.capacity() << endl;
s1.reserve(10);
cout << s1.capacity() << endl;
再看resize。resize的用途是初始化,对一个对象多次resize,不会去掉之前的值,而是在后面再加值
std::string s2;
s2.resize(20, 'x');
cout << s2.c_str() << endl;
s2.resize(30, 'y');
cout << s2.c_str() << endl;
如果后面的数字比前面小
std::string s2;
s2.resize(20, 'x');
cout << s2.c_str() << endl;
s2.resize(30, 'y');
cout << s2.c_str() << endl;
s2.resize(10, 'z');
cout << s2.c_str() << endl;
保留了前十个,虽然只展现了10个,但是容量还是最大的那个数值,编译器不会去缩容的,缩容可能会出现其它问题。
对于这个括号里代表大小的参数n,它有三个情况,小于size,size < n < capacity,大于capacity。
void resize(size_t n, char ch = '\0')
{
if (n <= _size)
{
_size = n;
_str[_size] = '\0';
}
else
{
if (n > _capacity)
{
reserve(n);
}
size_t i = _size;
while (i < n)
{
_str[i] = ch;
++i;
}
_size = n;
_str[_size] = '\0';
}
}
分为两个情况,小于size就只取前n个元素,如果大于,大于capacity就扩容,只是大于size那就一个个放进去,最后加入一个size。
特定位置插入删除
两个insert函数和一个erase函数,erase的作用就是从某个位置删除n个字符,并且给一个缺省值npos,意思就是没给就全删。定义一个静态变量npos,不给他缺省值,是因为它属于整个类,在静态区。那么在类某个地方初始化它就行:size_t string::npos = -1。
也可以这样写
private:
static const size_t npos;
const static size_t npos = -1;//可以把它放在迭代器声明的位置
//如果放在类外面,命名空间里面,就得这样写:const size_t string::npos = -1;
private:
static size_t npos;
static size_t npos = -1;
不过用上const,还只能加在int类型前面。
insert有字符和字符串两个函数,插入字符函数如果这样写
string& insert(size_t pos, char ch)
{
assert(pos <= _size);
if (_size + 1 > _capacity)
{
reserve(2 * _capacity);
}
size_t end = _size;
while (end >= pos)
{
_str[end + 1] = _str[end];
--end;
}
_str[pos] = ch;
++_size;
return *this;
}
那么面临一个问题,在0位置处插入字符会出错。由于end是size_t类型,那么end减到0的时候,再减一次就会变成很大的数,那么整个循环无法结束,也越界了。改成int还是不好,到了0再减一次变成-1后,循环还会继续,是因为pos是无符号整数,两个数进行比较时会进行隐式类型转换,有符号转为无符号,如果把pos改为int类型,也有些不妥,和库里的pos类型不一样了。那么我们改一下循环。
size_t end = _size + 1;
while (end > pos)
{
_str[end] = _str[end - 1];
--end;
}
插入字符串函数
string& insert(size_t pos, const char* str)
{
assert(pos <= _size);
size_t len = strlen(str);
if (_capacity < _size + len)
{
reserve(_size + len);
}
size_t end = _size + len;
while (end > pos + len - 1)
{
_str[end] = _str[end - len];
--end;
}
strncpy(_str + pos, str, len);
_size += len;
return *this;
}
其实也是控制变量,保证不出错,里面还有考虑扩容。
erase函数
string& erase(size_t pos, size_t len = npos)
{
assert(pos < _size);
if (len == npos || pos + len >= _size)
{
_str[pos] = '\0';
_size = pos;
}
else
{
strcpy(_str + pos, _str + pos + len);
_size -= len;
}
}
string s2("gusihkjaesdf");
s2.erase(10, 3);
cout << s2.c_str() << endl;
s2.erase(10, 30);
cout << s2.c_str() << endl;
s2.erase(4);
cout << s2.c_str() << endl;
写了insert后,push_back和append就可以这样实现
insert(_size, ch);
insert(_size, str);
5、流插入流提取
这里不写成成员函数,写成全局的
ostream& operator<<(ostream& out, const string& s)
{
for (auto ch : s)
{
out << ch;
}
return out;
}
istream& operator>>(istream& in, string& s)
{
char ch = in.get();
while (ch != ' ' && ch != '\n')
{
s += ch;
ch = in.get();
}
return in;
}
流提取里,用get是为了接收每一个字符,防止被系统当做字符与字符之间的间隔而无法继续输入。
测试代码
string s1("0123456789");
s1 += "hjdsk";
cout << s1 << endl;
cout << s1.c_str() << endl;
string s2;
cin >> s2;
cout << s2 << endl;
现在没有问题,如果测试s1的流提取,就出现随机符号了。
那在提取之前先清空一下就好
void clear()
{
_str[0] = '\0';
_size = 0;
}
istream& operator>>(istream& in, string& s)
{
s.clear();
char ch = in.get();
while (ch != ' ' && ch != '\n')
{
s += ch;
ch = in.get();
}
return in;
}
如果输入很长的字符,+=就需要一直扩容,这里有这样一个办法解决,固定地一块块增加,reserve可能面临该增容多少的问题。
istream& operator>>(istream& in, string& s)
{
s.clear();
char ch = in.get();
char buff[128];
size_t i = 0;
while (ch != ' ' && ch != '\n')
{
buff[i++] = ch;
if (i == 127)
{
buff[127] = '\0';
s += buff;
i = 0;
}
ch = in.get();
}
if (i != 0)
{
buff[i] = '\0';
s += buff;
}
return in;
}
库里也是相似的办法解决。
6、其它接口
void swap(string& s)
{
std::swap(_str, s._str);
std::swap(_capacity, s._capacity);
std::swap(_size, s._size);
}
size_t find(char ch, size_t pos = 0)
{
assert(pos < _size);
for (size_t i = pos; i < _size; ++i)
{
if (_str[i] == ch)
return i;
}
return npos;
}
size_t find(const char* str, size_t pos = 0)
{
assert(pos < _size);
char* ptr = strstr(_str + pos, str);
if (ptr == nullptr)
return npos;
else
return ptr - _str;
}
find可以支持从某个位置开始找。
结束。