string的结构
我们知道,string的底层其实就是一个支持动态增长的字符数组,那确定了它的结构,接下来我们就开始模拟实现它。
首先定义一个string类:
class string
{
public:
//成员函数
private:
char* _str;
size_t _capacity;
size_t _size;
};
string类的成员变量有3个,一个字符指针
_str
指向开辟的动态数组,_size
标识有效数据个数,_capacity
记录容量的大小(不包含'\0'
)。
现在是要自己实现一个string类,而标准库里面已经有string类了。所以,为了避免冲突,我们可以定义一个命名空间,把我们自己实现的string放到我们自己的命名空间里面。
namespace test
{
class string
{
public:
//成员函数
private:
char* _str;
size_t _capacity;
size_t _size;
};
}
构造函数与析构函数
无参和带参构造函数
string(const char* str = "")
:_capacity(strlen(str))
,_size(_capacity)
{
_str = new char[_capacity + 1];
strcpy(_str, str);
}
初始化列表初始化顺序是按照成员变量声明的顺序进行初始化,注意_capacity和_size的初始化顺序。_str最先声明,而_capacity在_str声明之后,所以可以先把_capacity和_size在初始化列表初始化,然后_str在构造函数内部初始化,并strcpy将内容拷贝过来。
注意:也可以按照声明的顺序在初始化列表初始化,但是需要多次strlen会降低效率。
缺省值不要给空指针和'\0',因为需要调用strlen。
析构函数
~string()
{
delete[] _str;
_str = nullptr;
_size = _capacity = 0;
}
拷贝构造
拷贝构造函数若未显式定义,编译器会生成默认的拷贝构造函数。 默认的拷贝构造函数 拷贝对象 按内存存储字节序完成拷贝,这种拷贝叫做浅拷贝,或者值拷贝。
类中如果没有涉及资源申请时,拷贝构造函数我们自己写不写都可以(因为默认生成的就可以搞定);一旦涉及到资源申请时,则拷贝构造函数是一定要写的,否则就是浅拷贝,就会出现问题。
而我们的string类,底层是一个动态顺序表,空间是我们从堆上new出来的,所以string类的拷贝构造必须是深拷贝,而默认生成的完成浅拷贝,就会出现多次析构的问题,程序崩溃。
所以需要实现一个深拷贝的拷贝构造函数:
传统:开辟一块新的空间,将字符串内容拷贝到新空间,size和capacity也拷贝过来。
// 传统写法
string(const string& s)
{
_str = new char[s._capacity+1];
strcpy(_str, s._str);
_size = s._size;
_capacity = s._capacity;
}
优化:如果string内实现了swap成员函数,利用swap成员函数可以简便地实现拷贝构造。先用构造函数构造一个临时string对象tmp用于swap,然后将this与tmp交换,由于tmp是临时变量,会自动调用析构函数,所以为了防止this->_str未初始化是野指针析构崩溃,先将_str初始化为空指针。
//优化写法
void swap(string& s)
{
std::swap(_str, s._str);
std::swap(_size, s._size);
std::swap(_capacity, s._capacity);
}
// s2(s1)
string(const string& s)
:_str(nullptr)
,_size(0)
,_capacity(0)
{
string tmp(s._str);
swap(tmp);
}
赋值重载
默认生成的赋值重载也是浅拷贝,和拷贝构造一样,如果类中未涉及到资源管理,赋值运算符是否实现都可以;一旦涉及到资源管理则必须要自己实现。
所以我们也需要自己实现一个深拷贝的赋值重载:
赋值有这样几种情况:
不管哪种情况,我们都直接释放旧空间,然后开新空间拷贝数据:
传统写法: 开辟新空间并拷贝数据,释放旧空间,最后返回。最好不要先释放空间,如果new失败了会抛异常,不过原来对象空间会被破坏,如果这样开辟空间失败也不会破坏原来空间:
string& operator=(const string& s)
{
if(this!=&s)//防止自己给自己赋值
{
char* tmp = new char[s._capacity+1];
strcpy(tmp,s._str);
delete[] _str;
_str = tmp;
_size = s._size;
_capacity = s._capacity;
}
return *this;
}
优化写法: 利用构造函数构造一个临时string对象tmp,交换*this和tmp,返回*this,由于tmp是临时对象会自动调用析构。
// s2 = s3
string& operator=(const string& s)
{
if (this != &s)
{
string tmp(s);
swap(tmp);
}
return *this;
}
再优化: 传参时直接传string,调用拷贝构造构造tmp,然后swap交换,返回*this,参数是临时对象出作用域会自动调用析构。
string& operator=(string tmp)
{
swap(tmp);
return *this;
}
string对象的遍历
operator[](const和非const)
char& operator[](size_t pos)
{
assert(pos < _size);
return _str[pos];
}
const char& operator[](size_t pos) const
{
assert(pos < _size);
return _str[pos];
}
size_t size() const
{
return _size;
}
size函数不加const的话const对象无法调用,加了const修饰,不管是const对象还是非const对象都可以调用。
遍历:
int main()
{
test::string s = "hello world";
for (int i = 0; i < s.size(); i++)
{
cout << s[i] << " ";
}
cout << endl;
}
迭代器模拟实现
那迭代器我们说了可以理解成一个像指针一样的东西,但是不一定是指针。
我们最开始介绍了STL有好几个版本,不同的版本实现可能是不一样的。
那其实vs下string的迭代器呢就不是使用指针实现的,而G++下使用的SGI版本是指针实现的。那这里我们模拟实现就使用指针来实现。
public:
typedef char* iterator;
typedef const char* const_iterator;
iterator begin()
{
return _str;
}
iterator end()
{
return _str + _size;
}
const_iterator begin() const
{
return _str;
}
const_iterator end() const
{
return _str + _size;
}
有迭代器就可以使用范围for,我们之前提过,范围for的底层就是用的迭代器。大家可以理解成范围for的语法其实就跟我们之前学过的宏有点类似,它会被替换成迭代器,相当于把*it赋值给e。
遍历:
int main()
{
test::string s = "hello world";
for (test::string::iterator it = s.begin() ; it != s.end(); it++)
{
cout << *it<< " ";
}
cout << endl;
}
int main()
{
test::string s = "hello world";
for (auto e : s)
{
cout << e << " ";
}
cout << endl;
}
常见关系运算符重载
字符串之间的比较,可以考虑直接复用strcmp。
bool operator<(const string& s) const
{
return strcmp(_str, s._str) < 0;
}
bool operator==(const string& s) const
{
return strcmp(_str, s._str) == 0;
}
bool operator<=(const string& s) const
{
return *this < s || *this == s;
}
bool operator>(const string& s) const
{
return !(*this <= s);
}
bool operator>=(const string& s) const
{
return !(*this < s);
}
bool operator!=(const string& s) const
{
return !(*this == s);
}
如果this不用const修饰:
这里换一下位置就会报错,因为这样s去调<,而s是const对象,operator<是非const成员函数,const对象不能调用非const成员函数。
对于类的成员函数,如果在成员函数内部不需要改变调用它的对象,最好把它写成const成员函数。
数据插入删除及扩容操作
reserve和resize
void reserve(size_t n)
{
if (n > _capacity)//避免缩容
{
char* tmp = new char[n + 1];
strcpy(tmp, _str);
delete[] _str;
_str = tmp;
_capacity = n;
}
}
void resize(size_t n, char ch = '\0')
{
if (n <= _size)//缩容
{
_str[n] = '\0';//_size是'\0'的下标,缩容只需要在n处加'\0'即可
_size = n;
}
else//扩容并初始化
{
reserve(n);//n可能位于_size和_capacity之间,也可能大于_capacity,但小于_capacity时
//reserve不会扩容,所以这里只需要reserve(n)即可
while (_size < n)
{
_str[_size] = ch;
++_size;
}
_str[_size] = '\0';
}
}
push_back和append
void push_back(char ch)
{
if (_size == _capacity)
{
reserve(_capacity == 0 ? 4 : _capacity * 2);//如果字符串是空,开辟四个字节
}
_str[_size] = ch;
++_size;
_str[_size] = '\0';
}
void append(const char* str)
{
size_t len = strlen(str);
if (_size + len > _capacity)
{
reserve(_size + len);
}
strcpy(_str + _size, str);
_size += len;
}
push_back一次只插入一个字符的话,可以用_size == _capacity判断扩容条件和扩容大小(2倍或1.5倍),append不能确定字符串长度,扩容需要扩指定长度。
+=
复用push_back和append即可
string& operator+=(char ch)
{
push_back(ch);
return *this;
}
string& operator+=(const char* str)
{
append(str);
return *this;
}
insert与erase
Insert
错误代码:
void insert(size_t pos, char ch)
{
assert(pos <= _size);
if (_size == _capacity)
{
reserve(_capacity == 0 ? 4 : _capacity * 2);
}
size_t end = _size;
while (end >= pos)
{
_str[end + 1] = _str[end];
end--;
}
_str[pos] = ch;
_size++;
}
在0位置插入直接报错,当pos为0时,end等于0时还会进入循环,end再- -变成多少?
这里end的类型是szie_t,无符号整型,所以这里end为0后再- -并不是-1,而是整型最大值,那就越界了,循环也没正常结束,所以程序崩了。
把end的类型变成int?int类型和unsigned int 类型运算会隐式类型转换成unsigned int,所以可以将pos强转为int。
正确代码:
void insert(size_t pos, char ch)
{
assert(pos <= _size);
if (_size == _capacity)
{
reserve(_capacity == 0 ? 4 : _capacity * 2);
}
int end = _size;
while (end >= (int)pos)
{
_str[end + 1] = _str[end];
end--;
}
_str[pos] = ch;
_size++;
}
也可以改变插入方式,end初始化为_size+1,判断条件中end为0即终止:
void insert(size_t pos, char ch)
{
assert(pos <= _size);
if (_size == _capacity)
{
reserve(_capacity == 0 ? 4 : _capacity * 2);
}
size_t end = _size + 1;
//int end = _size;
//while (end >= (int)pos)
//{
// _str[end + 1] = _str[end];
// end--;
//}
while (end > pos)
{
_str[end] = _str[end - 1];
--end;
}
_str[pos] = ch;
_size++;
}
在pos位置插入一个字符串 :
void insert(size_t pos, const char* str)
{
assert(pos <= _size);
size_t len = strlen(str);
if (_size + len > _capacity)
{
reserve(_size + len);
}
// 挪动数据
int end = _size;
while (end >= (int)pos)
{
_str[end + len] = _str[end];
--end;
}
strncpy(_str + pos, str, len);
_size += len;
}
Erase
len为npos或长度超出字符串长度,直接在pos位置加'\0',否则直接挪动数据。
void erase(size_t pos = 0, size_t len = npos)
{
assert(pos < _size);
if (len == npos || pos +len >= _size)
{
_str[pos] = '\0';
_size = pos;
}
else
{
size_t begin = pos + len;
while (begin <= _size)
{
_str[begin-len] = _str[begin];
++begin;
}
_size -= len;
}
}
npos
顺便提一下npos,我们知道C++11开始支持类的成员变量在声明的时候给缺省值,但是有个前提,必须是非静态成员变量才可以在类中声明的时候可以给缺省值。静态成员变量是不能在声明时给缺省值的。
对于静态成员变量:规定静态成员变量的初始化(定义的时候赋初值)一定要在类外,定义时不添加static关键字,类中只是声明。
但是呢,加了const之后 ,静态成员变量可以在声明时给缺省值:
但这样的写法,只支持整型:
按照正常的写法更统一:
find和substr
遍历寻找即可
size_t find(char ch, size_t pos = 0)
{
for (size_t i = pos; i < _size; i++)
{
if (_str[i] == ch)
{
return i;
}
}
return npos;
}
调用strstr函数寻找sub字符串的位置,如果找到用指针-指针的方式得到字符串首元素的下标。
size_t find(const char* sub, size_t pos = 0)
{
const char* p = strstr(_str + pos, sub);
if (p)
{
return p - _str;
}
else
{
return npos;
}
}
substr返回一个string,因为内部创建了一个临时变量。
string substr(size_t pos = 0, size_t len = npos)
{
string s;
if (len == npos || pos + len >= _size)
{
len = _size - pos;
}
s.reserve(len);
while (len--)
{
s += _str[pos++];
}
return s;
}
流插入流提取
流插入:
ostream& operator<<(ostream& out, const string& s)
{
for (auto ch : s)
out << ch;
return out;
}
流提取:
用一个循环,一个字符一个字符的去缓冲区里提取,然后插入到s里,遇到空格或者换行就停止。
istream& operator>>(istream& in, string& s)
{
char ch;
cin >> ch;
while (ch != ' ' && ch != '\n')
{
s += ch;
cin >> ch;
}
return in;
}
但是发现无法终止读取,原因在于cin它读不到缓冲区里的空格和换行,为什么读不到呢?
之前也提到过,C语言里的scanf,包括这里的cin,我们在用它们输入的时候是不是有可能输入多个值啊,那当我们输入多个值的时候,它们默认是以空格或者换行来区分我们输入的多个值的。
所以它遇到缓冲区里的空格或者换行的时候,它会认为这是你输入多个值的一个区分,会自动忽略掉它们,不会去提取,所以这里就读不到空格和换行,那循环就不会结束。
我们可以用这个: 可以看到get函数是以'\n'为分隔符的,它可以读到空格和换行符。
istream& operator>>(istream& in, string& s)
{
char ch = in.get();
while (ch != ' ' && ch != '\n')
{
s += ch;
ch = in.get();
}
return in;
}
}
但如果string对象原来就有数据怎么办,每次读取前都要先清空数据。
void clear()
{
_str[0] = '\0';
_size = 0;
}
istream& operator>>(istream& in, string& s)
{
s.clear();
char ch = in.get();
while (ch != ' ' && ch != '\n')
{
s += ch;
ch = in.get();
}
return in;
}
如果我们输入一个特别长的字符串,那这个地方在不断+=字符的过程中是不是可能会频繁扩容啊,那我们有没有什么办法可以解决一下呢?库里面呢用了一种类似于这样的方式:
istream& operator>>(istream& in, string& s)
{
s.clear();
char buff[129];
size_t i = 0;
char ch;
ch = in.get();
while (ch != ' ' && ch != '\n')
{
buff[i++] = ch;
if (i == 128)
{
buff[i] = '\0';
s += buff;
i = 0;
}
//s += ch;
ch = in.get();
}
if (i != 0)
{
buff[i] = '\0';
s += buff;
}
return in;
}
这里开了一个数组,每次先把字符一个个放到数组中,满了的话就+=到s里(以字符串的形式),然后把i置成0,后面继续放数组里。那这样做相对而言扩容就不会那么频繁了。
写时拷贝
如果现在有一个string对象s2是s1拷贝构造出来的,在vs上面s2直接就是s1是深拷贝(vs是PJ版本STL,g++是SGI版本STL)。而在Linux的G++(采用的是SGI版本)下面则是写时拷贝:
写时拷贝就是一种拖延症,是在浅拷贝的基础之上增加了引用计数的方式来实现的。
引用计数:用来记录资源使用者的个数。在构造时,将资源的计数给成1,每增加一个对象使用该资源,就给计数增加1;当某个对象被销毁时,先给该计数减1,然后再检查是否需要释放资源,如果计数为1,说明该对象是资源的最后一个使用者,将该资源释放;否则就不能释放,因为还有其他对象在使用该资源。
每当我们为string分配内存时,我们总是要多分配一个空间用来存放这个引用计数的值,只要发生拷贝构造和赋值时,这个内存的值就会加一。
s2是s1的拷贝,把引用计数加1,表示现在有两个对象使用这块资源。
释放s2的时候,就把引用计数减1,而不是真的释放这块空间。
s1释放的时候,引用计数为0,就可以释放了。
那这个地方是不是不拷贝啊?不是的,写时拷贝,写时拷贝,就是写的时候才拷贝。在内容修改时,string类为查看这个引用计数是否为0,如果不为零,表示有人在共享这块内存,那么自己需要先做一份拷贝,然后把引用计数减去一,再把数据拷贝过来。
还拿上面那个例子来说,如果s2只是拷贝s1,我们并没有修改s2,那它们两个就可以共用一块空间,如果我们去修改了s2的内容,那这个时候才会进行真正的拷贝,为s2开一块独立的空间,然后把s1的内容拷贝下来,然后你要修改数据就在你自己的这块空间上进行修改。
修改数据才会触发写时拷贝(Copy-On-Write),不修改当然就不会改。这就是托延战术的真谛,非到要做的时候才去做。
综合:
namespace test
{
class string
{
friend ostream& operator<<(ostream& _cout, const test::string& s);
friend istream& operator>>(istream& _cin, test::string& s);
public:
typedef char* iterator;
typedef const char* const_iterator;
public:
string(const char* str = "")
:_capacity(strlen(str))
,_size(_capacity)
{
_str = new char[_capacity + 1];
strcpy(_str, str);
}
string(const string& s)
:_str(nullptr)
,_size(0)
,_capacity(0)
{
string tmp(s._str);
swap(tmp);
}
string& operator=(string tmp)
{
swap(tmp);
return *this;
}
~string()
{
delete[] _str;
_str = nullptr;
_size = _capacity = 0;
}
//
// iterator
iterator begin()
{
return _str;
}
iterator end()
{
return _str + _size;
}
const_iterator begin() const
{
return _str;
}
const_iterator end() const
{
return _str+_size;
}
/
// modify
void push_back(char ch)
{
if (_size == _capacity)
{
reserve(_capacity == 0 ? 4 : _capacity * 2);//如果字符串是空,开辟四个字节
}
_str[_size] = ch;
++_size;
_str[_size] = '\0';
}
string& operator+=(char c)
{
push_back(c);
return *this;
}
void append(const char* str)
{
size_t len = strlen(str);
if (_size + len >= _capacity)
{
reserve(_size + len);
}
strcpy(_str + _size, str);
_size += len;
}
string& operator+=(const char* str)
{
append(str);
return *this;
}
void clear()
{
_str[0] = '\0';
_size = 0;
}
void swap(string& s)
{
std::swap(_size, s._size);
std::swap(_capacity, s._capacity);
std::swap(_str, s._str);
}
const char* c_str() const
{
return _str;
}
/
// capacity
size_t size() const
{
return _size;
}
size_t capacity() const
{
return _capacity;
}
bool empty() const
{
return _size == 0;
}
void resize(size_t n, char c = '\0')
{
if (n <= _size)
{
_str[n] = '\0';
_size = n;
}
else
{
reserve(n);
while (_size < n)
{
_str[_size] = c;
_size++;
}
_str[_size] = '\0';
}
}
void reserve(size_t n)
{
if (n > _capacity)//避免缩容
{
char* tmp = new char[n + 1];
strcpy(tmp, _str);
delete[] _str;
_str = tmp;
_capacity = n;
}
}
/
// access
char& operator[](size_t pos)
{
assert(pos < _size);
return _str[pos] ;//*(_str + index)
}
const char& operator[](size_t pos) const
{
assert(pos < _size);
return _str[pos];//*(_str + index)
}
/
//relational operators
bool operator<(const string& s) const
{
int ret = strcmp(this->_str, s._str);
if (ret < 0)
{
return true;
}
return false;
}
bool operator==(const string& s) const
{
int ret = strcmp(this->_str, s._str);
if (ret == 0)
{
return true;
}
return false;
}
bool operator<=(const string& s) const
{
return *this == s && *this < s;
}
bool operator>(const string& s) const
{
return !(*this <= s);
}
bool operator>=(const string& s) const
{
return !(*this < s);
}
bool operator!=(const string& s) const
{
return !(*this == s);
}
// 返回c在string中第一次出现的位置
size_t find(char c, size_t pos = 0) const
{
while (pos < _size)
{
if (_str[pos] == c)
return pos;
pos++;
}
return npos;
}
// 返回子串s在string中第一次出现的位置
size_t find(const char* sub, size_t pos = 0)
{
const char* p = strstr(_str + pos, sub);
if (p)
{
return p - _str;
}
else
{
return npos;
}
}
// 在pos位置上插入字符c/字符串str,并返回该字符的位置
void insert(size_t pos, char ch)
{
assert(pos <= _size);
if (_size == _capacity)
{
reserve(_capacity == 0 ? 4 : _capacity * 2);
}
int end = _size;
while (end >= (int)pos)
{
_str[end + 1] = _str[end];
end--;
}
/*size_t end = _size + 1;
while (end > pos)
{
_str[end] = _str[end - 1];
--end;
}*/
_str[pos] = ch;
_size++;
}
void insert(size_t pos, const char* str)
{
assert(pos <= _size);
size_t len = strlen(str);
if (_size + len > _capacity)
{
reserve(_size + len);
}
// 挪动数据
int end = _size;
while (end >= (int)pos)
{
_str[end + len] = _str[end];
--end;
}
strncpy(_str + pos, str, len);
_size += len;
}
// 删除pos位置上的len个元素,并返回该元素的下一个位置
void erase(size_t pos, size_t len = npos)
{
assert(pos < _size);
if (len == npos || pos + len >= _size)
{
_str[pos] = '\0';
_size = pos;
}
else
{
size_t begin = pos + len;
while (begin <= _size)
{
_str[begin - len] = _str[begin];
++begin;
}
_size -= len;
}
}
string substr(size_t pos = 0, size_t len = npos)
{
string s;
if (len == npos || pos + len >= _size)
{
len = _size - pos;
}
s.reserve(len);
while (len--)
{
s += _str[pos++];
}
return s;
}
private:
char* _str;
size_t _capacity;
size_t _size;
public:
const static size_t npos;
};
const size_t string::npos = -1;
ostream& operator<<(ostream& _cout, const test::string& s)
{
_cout << s.c_str();
return _cout;
}
istream& operator>>(istream& in, string& s)
{
s.clear();
char buff[129];
size_t i = 0;
char ch;
ch = in.get();
while (ch != ' ' && ch != '\n')
{
buff[i++] = ch;
if (i == 128)
{
buff[i] = '\0';
s += buff;
i = 0;
}
//s += ch;
ch = in.get();
}
if (i != 0)
{
buff[i] = '\0';
s += buff;
}
return in;
}
}