C++之string模拟实现与string的补充

不是我衰

已于 2023-09-18 23:36:29 修改

阅读量47

点赞数

分类专栏： C++ 文章标签： c++ 开发语言 stl

于 2023-09-18 23:03:11 首次发布

本文链接：https://blog.csdn.net/ZZY5707/article/details/132916099

版权

C++ 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

string的结构

我们知道，string的底层其实就是一个支持动态增长的字符数组，那确定了它的结构，接下来我们就开始模拟实现它。

首先定义一个string类:

class string
{
public:
//成员函数
private:
    char* _str;
    size_t _capacity;
    size_t _size;

};

string类的成员变量有3个，一个字符指针_str指向开辟的动态数组，_size标识有效数据个数，_capacity记录容量的大小（不包含'\0'）。

现在是要自己实现一个string类，而标准库里面已经有string类了。所以，为了避免冲突，我们可以定义一个命名空间，把我们自己实现的string放到我们自己的命名空间里面。

namespace test
{
	class string
	{
	public:
    //成员函数
    private:
        char* _str;
        size_t _capacity;
        size_t _size;
	};
}

构造函数与析构函数

无参和带参构造函数

string(const char* str = "")
            :_capacity(strlen(str))
            ,_size(_capacity)
        {
            _str = new char[_capacity + 1];
            strcpy(_str, str);
        }

初始化列表初始化顺序是按照成员变量声明的顺序进行初始化,注意_capacity和_size的初始化顺序。_str最先声明，而_capacity在_str声明之后，所以可以先把_capacity和_size在初始化列表初始化，然后_str在构造函数内部初始化,并strcpy将内容拷贝过来。

注意：也可以按照声明的顺序在初始化列表初始化，但是需要多次strlen会降低效率。

缺省值不要给空指针和'\0'，因为需要调用strlen。

析构函数

~string()
    {
        delete[] _str;
        _str = nullptr;
        _size = _capacity = 0;
    }

拷贝构造

拷贝构造函数若未显式定义，编译器会生成默认的拷贝构造函数。默认的拷贝构造函数拷贝对象按内存存储字节序完成拷贝，这种拷贝叫做浅拷贝，或者值拷贝。
类中如果没有涉及资源申请时，拷贝构造函数我们自己写不写都可以（因为默认生成的就可以搞定）；一旦涉及到资源申请时，则拷贝构造函数是一定要写的，否则就是浅拷贝，就会出现问题。
而我们的string类，底层是一个动态顺序表，空间是我们从堆上new出来的，所以string类的拷贝构造必须是深拷贝，而默认生成的完成浅拷贝，就会出现多次析构的问题，程序崩溃。

所以需要实现一个深拷贝的拷贝构造函数:

传统：开辟一块新的空间，将字符串内容拷贝到新空间，size和capacity也拷贝过来。

// 传统写法
string(const string& s)
{
	_str = new char[s._capacity+1];
	strcpy(_str, s._str);
	_size = s._size;
	_capacity = s._capacity;
}

优化：如果string内实现了swap成员函数，利用swap成员函数可以简便地实现拷贝构造。先用构造函数构造一个临时string对象tmp用于swap，然后将this与tmp交换，由于tmp是临时变量，会自动调用析构函数，所以为了防止this->_str未初始化是野指针析构崩溃，先将_str初始化为空指针。

//优化写法
void swap(string& s)
{
    std::swap(_str, s._str);
	std::swap(_size, s._size);
	std::swap(_capacity, s._capacity);
}

// s2(s1)
string(const string& s)
	:_str(nullptr)
	,_size(0)
	,_capacity(0)
{
	string tmp(s._str);
	swap(tmp);
}

赋值重载

默认生成的赋值重载也是浅拷贝，和拷贝构造一样，如果类中未涉及到资源管理，赋值运算符是否实现都可以；一旦涉及到资源管理则必须要自己实现。

所以我们也需要自己实现一个深拷贝的赋值重载：

赋值有这样几种情况:

不管哪种情况，我们都直接释放旧空间，然后开新空间拷贝数据：

传统写法： 开辟新空间并拷贝数据，释放旧空间，最后返回。最好不要先释放空间，如果new失败了会抛异常，不过原来对象空间会被破坏，如果这样开辟空间失败也不会破坏原来空间：

string& operator=(const string& s)
{
    if(this!=&s)//防止自己给自己赋值
    {
        char* tmp = new char[s._capacity+1];
        strcpy(tmp,s._str);
        delete[] _str;
        _str = tmp;
	    _size = s._size;
	    _capacity = s._capacity;
    }
    return *this;
}

优化写法： 利用构造函数构造一个临时string对象tmp，交换*this和tmp，返回*this，由于tmp是临时对象会自动调用析构。

// s2 = s3
string& operator=(const string& s)
{
	if (this != &s)
	{
		string tmp(s);
		swap(tmp);
	}

	return *this;
}

再优化：传参时直接传string，调用拷贝构造构造tmp，然后swap交换，返回*this，参数是临时对象出作用域会自动调用析构。

string& operator=(string tmp)
{
	swap(tmp);

	return *this;
}

string对象的遍历

operator[]（const和非const）

char& operator[](size_t pos)
{
	assert(pos < _size);

	return _str[pos];
}

const char& operator[](size_t pos) const
{
	assert(pos < _size);

	return _str[pos];
}

size_t size() const
{
	return _size;
}

size函数不加const的话const对象无法调用,加了const修饰,不管是const对象还是非const对象都可以调用。

遍历：

int main()
{
    test::string s = "hello world";
    for (int i = 0; i < s.size(); i++)
    {
        cout << s[i] << " ";
    }
    cout << endl;
}

迭代器模拟实现

那迭代器我们说了可以理解成一个像指针一样的东西，但是不一定是指针。
我们最开始介绍了STL有好几个版本，不同的版本实现可能是不一样的。
那其实vs下string的迭代器呢就不是使用指针实现的，而G++下使用的SGI版本是指针实现的。那这里我们模拟实现就使用指针来实现。

public:
    typedef char* iterator;
    typedef const char* const_iterator;

		iterator begin()
		{
			return _str;
		}

		iterator end()
		{
			return _str + _size;
		}

		const_iterator begin() const
		{
			return _str;
		}

		const_iterator end() const
		{
			return _str + _size;
		}

有迭代器就可以使用范围for，我们之前提过，范围for的底层就是用的迭代器。大家可以理解成范围for的语法其实就跟我们之前学过的宏有点类似，它会被替换成迭代器，相当于把*it赋值给e。

遍历：

int main()
{
    test::string s = "hello world";
    for (test::string::iterator it = s.begin() ; it != s.end(); it++)
    {
        cout << *it<< " ";
    }
    cout << endl;
}

int main()
{
    test::string s = "hello world";
    for (auto e : s)
    {
        cout << e << " ";
    }
    cout << endl;
}

常见关系运算符重载

字符串之间的比较，可以考虑直接复用strcmp。

bool operator<(const string& s) const
{
	return strcmp(_str, s._str) < 0;
}

bool operator==(const string& s) const
{
	return strcmp(_str, s._str) == 0;
}

bool operator<=(const string& s) const
{
	return *this < s || *this == s;
}

bool operator>(const string& s) const
{
	return !(*this <= s);
}

bool operator>=(const string& s) const
{
	return !(*this < s);
}

bool operator!=(const string& s) const
{
	return !(*this == s);
}

如果this不用const修饰:

这里换一下位置就会报错，因为这样s去调<，而s是const对象，operator<是非const成员函数，const对象不能调用非const成员函数。
对于类的成员函数，如果在成员函数内部不需要改变调用它的对象，最好把它写成const成员函数。

数据插入删除及扩容操作

reserve和resize

void reserve(size_t n)
{
	if (n > _capacity)//避免缩容
	{
		char* tmp = new char[n + 1];
		strcpy(tmp, _str);
		delete[] _str;
		_str = tmp;

		_capacity = n;
	}
}

void resize(size_t n, char ch = '\0')
{
	if (n <= _size)//缩容
	{
		_str[n] = '\0';//_size是'\0'的下标,缩容只需要在n处加'\0'即可
		_size = n;
	}
	else//扩容并初始化
	{
		reserve(n);//n可能位于_size和_capacity之间,也可能大于_capacity,但小于_capacity时
                    //reserve不会扩容,所以这里只需要reserve(n)即可
		while (_size < n)
		{
			_str[_size] = ch;
			++_size;
		}

		_str[_size] = '\0';
	}
}

push_back和append

void push_back(char ch)
{
	if (_size == _capacity)
	{
		reserve(_capacity == 0 ? 4 : _capacity * 2);//如果字符串是空,开辟四个字节
	}

	_str[_size] = ch;
	++_size;
	_str[_size] = '\0';
}

void append(const char* str)
{
	size_t len = strlen(str);
	if (_size + len > _capacity)
	{
		reserve(_size + len);
	}

	strcpy(_str + _size, str);
	_size += len;
}

push_back一次只插入一个字符的话，可以用_size == _capacity判断扩容条件和扩容大小(2倍或1.5倍)，append不能确定字符串长度，扩容需要扩指定长度。

+=

复用push_back和append即可

string& operator+=(char ch)
{
	push_back(ch);
	return *this;
}

string& operator+=(const char* str)
{
	append(str);
	return *this;
}

insert与erase

Insert

错误代码:

void insert(size_t pos, char ch)
{
    assert(pos <= _size);
    if (_size == _capacity)
    {
        reserve(_capacity == 0 ? 4 : _capacity * 2);
    }

    size_t end = _size;
    while (end >= pos)
    {
        _str[end + 1] = _str[end];
        end--;
    }
    _str[pos] = ch;
    _size++;
}

在0位置插入直接报错，当pos为0时，end等于0时还会进入循环,end再- -变成多少？
这里end的类型是szie_t，无符号整型，所以这里end为0后再- -并不是-1，而是整型最大值，那就越界了，循环也没正常结束，所以程序崩了。

把end的类型变成int？int类型和unsigned int 类型运算会隐式类型转换成unsigned int,所以可以将pos强转为int。

正确代码:

void insert(size_t pos, char ch)
{
    assert(pos <= _size);
    if (_size == _capacity)
    {
        reserve(_capacity == 0 ? 4 : _capacity * 2);
    }

    int end = _size;
    while (end >= (int)pos)
    {
        _str[end + 1] = _str[end];
        end--;
    }
    _str[pos] = ch;
    _size++;
}

也可以改变插入方式，end初始化为_size+1，判断条件中end为0即终止:

void insert(size_t pos, char ch)
{
	assert(pos <= _size);
	if (_size == _capacity)
	{
		reserve(_capacity == 0 ? 4 : _capacity * 2);
	}

	size_t end = _size + 1;
    //int end = _size;
    //while (end >= (int)pos)
    //{
    //    _str[end + 1] = _str[end];
    //    end--;
    //}
	while (end > pos)
	{
		_str[end] = _str[end - 1];
		--end;
	}

	_str[pos] = ch;
	_size++;
}

在pos位置插入一个字符串 :

void insert(size_t pos, const char* str)
{
	assert(pos <= _size);

	size_t len = strlen(str);
	if (_size + len > _capacity)
	{
		reserve(_size + len);
	}

	// 挪动数据
	int end = _size;
	while (end >= (int)pos)
	{
		_str[end + len] = _str[end];
		--end;
	}

	strncpy(_str + pos, str, len);
	_size += len;
}

Erase

len为npos或长度超出字符串长度，直接在pos位置加'\0'，否则直接挪动数据。

void erase(size_t pos = 0, size_t len = npos)
{
	assert(pos < _size);

	if (len == npos || pos +len >= _size)
	{
		_str[pos] = '\0';
		_size = pos;
	}
	else
	{
		size_t begin = pos + len;
		while (begin <= _size)
		{
			_str[begin-len] = _str[begin];
			++begin;
		}
		_size -= len;
	}
}

npos

顺便提一下npos,我们知道C++11开始支持类的成员变量在声明的时候给缺省值，但是有个前提，必须是非静态成员变量才可以在类中声明的时候可以给缺省值。静态成员变量是不能在声明时给缺省值的。
对于静态成员变量：规定静态成员变量的初始化（定义的时候赋初值）一定要在类外，定义时不添加static关键字，类中只是声明。

但是呢，加了const之后 ，静态成员变量可以在声明时给缺省值：

但这样的写法，只支持整型：

按照正常的写法更统一：

find和substr

遍历寻找即可

size_t find(char ch, size_t pos = 0)
{
	for (size_t i = pos; i < _size; i++)
	{
		if (_str[i] == ch)
		{
			return i;
		}
	}

	return npos;
}

调用strstr函数寻找sub字符串的位置,如果找到用指针-指针的方式得到字符串首元素的下标。

size_t find(const char* sub, size_t pos = 0)
{
	const char* p = strstr(_str + pos, sub);
	if (p)
	{
		return p - _str;
	}
	else
	{
		return npos;
	}
}

substr返回一个string，因为内部创建了一个临时变量。

string substr(size_t pos = 0, size_t len = npos)
{
    string s;
    if (len == npos || pos + len >= _size)
    {
          len = _size - pos;
    }
    s.reserve(len);
    while (len--)
    {
          s += _str[pos++];
    }
    return s;
}

流插入流提取

流插入:

ostream& operator<<(ostream& out, const string& s)
{
	for (auto ch : s)
		out << ch;
	return out;
}

流提取：

用一个循环,一个字符一个字符的去缓冲区里提取,然后插入到s里,遇到空格或者换行就停止。

istream& operator>>(istream& in, string& s)
  {
      char ch;
      cin >> ch;
      while (ch != ' ' && ch != '\n')
      {
          s += ch;
          cin >> ch;
      }
      return in;
  }

但是发现无法终止读取，原因在于cin它读不到缓冲区里的空格和换行，为什么读不到呢？
之前也提到过，C语言里的scanf，包括这里的cin，我们在用它们输入的时候是不是有可能输入多个值啊，那当我们输入多个值的时候，它们默认是以空格或者换行来区分我们输入的多个值的。
所以它遇到缓冲区里的空格或者换行的时候，它会认为这是你输入多个值的一个区分，会自动忽略掉它们，不会去提取，所以这里就读不到空格和换行，那循环就不会结束。

我们可以用这个：可以看到get函数是以'\n'为分隔符的,它可以读到空格和换行符。

    istream& operator>>(istream& in, string& s)
    {
        char ch = in.get();
        while (ch != ' ' && ch != '\n')
        {
            s += ch;
            ch = in.get();
        }
        return in;
    }
}

但如果string对象原来就有数据怎么办,每次读取前都要先清空数据。

void clear()
{
    _str[0] = '\0';
     _size = 0;
}

istream& operator>>(istream& in, string& s)
{
    s.clear();
    char ch = in.get();
    while (ch != ' ' && ch != '\n')
    {
        s += ch;
        ch = in.get();
    }
    return in;
}

如果我们输入一个特别长的字符串，那这个地方在不断+=字符的过程中是不是可能会频繁扩容啊，那我们有没有什么办法可以解决一下呢？库里面呢用了一种类似于这样的方式:

istream& operator>>(istream& in, string& s)
{
    s.clear();

	char buff[129];
	size_t i = 0;

	char ch;
	ch = in.get();
	while (ch != ' ' && ch != '\n')
	{
		buff[i++] = ch;
		if (i == 128)
		{
			buff[i] = '\0';
			s += buff;
			i = 0;
		}
		//s += ch;
		ch = in.get();
	}

	if (i != 0)
	{
		buff[i] = '\0';
		s += buff;
	}

	return in;
}

这里开了一个数组，每次先把字符一个个放到数组中，满了的话就+=到s里（以字符串的形式）,然后把i置成0，后面继续放数组里。那这样做相对而言扩容就不会那么频繁了。

写时拷贝

如果现在有一个string对象s2是s1拷贝构造出来的，在vs上面s2直接就是s1是深拷贝（vs是PJ版本STL，g++是SGI版本STL）。而在Linux的G++（采用的是SGI版本）下面则是写时拷贝：

写时拷贝就是一种拖延症，是在浅拷贝的基础之上增加了引用计数的方式来实现的。
引用计数：用来记录资源使用者的个数。在构造时，将资源的计数给成1，每增加一个对象使用该资源，就给计数增加1；当某个对象被销毁时，先给该计数减1，然后再检查是否需要释放资源，如果计数为1，说明该对象是资源的最后一个使用者，将该资源释放；否则就不能释放，因为还有其他对象在使用该资源。

每当我们为string分配内存时，我们总是要多分配一个空间用来存放这个引用计数的值，只要发生拷贝构造和赋值时，这个内存的值就会加一。

s2是s1的拷贝，把引用计数加1，表示现在有两个对象使用这块资源。

释放s2的时候，就把引用计数减1，而不是真的释放这块空间。

s1释放的时候，引用计数为0，就可以释放了。

那这个地方是不是不拷贝啊？不是的，写时拷贝，写时拷贝，就是写的时候才拷贝。在内容修改时，string类为查看这个引用计数是否为0，如果不为零，表示有人在共享这块内存，那么自己需要先做一份拷贝，然后把引用计数减去一，再把数据拷贝过来。
还拿上面那个例子来说，如果s2只是拷贝s1，我们并没有修改s2，那它们两个就可以共用一块空间，如果我们去修改了s2的内容，那这个时候才会进行真正的拷贝，为s2开一块独立的空间，然后把s1的内容拷贝下来，然后你要修改数据就在你自己的这块空间上进行修改。
修改数据才会触发写时拷贝（Copy-On-Write），不修改当然就不会改。这就是托延战术的真谛，非到要做的时候才去做。

综合：

namespace test
{
    class string
    {
        friend ostream& operator<<(ostream& _cout, const test::string& s);
        friend istream& operator>>(istream& _cin, test::string& s);
    public:
        typedef char* iterator;
        typedef const char* const_iterator;
    public:
        string(const char* str = "")
            :_capacity(strlen(str))
            ,_size(_capacity)
        {
            _str = new char[_capacity + 1];
            strcpy(_str, str);
        }

        string(const string& s)
            :_str(nullptr)
            ,_size(0)
            ,_capacity(0)
        {
            string tmp(s._str);
            swap(tmp);
        }

        string& operator=(string tmp)
        {
            swap(tmp);
            return *this;
        }
        ~string()
        {
            delete[] _str;
            _str = nullptr;
            _size = _capacity = 0;
        }
        //
        // iterator
        iterator begin()
        {
            return _str;
        }
        iterator end()
        {
            return _str + _size;
        }
        const_iterator begin() const
        {
            return _str;
        }
        const_iterator end() const
        {
            return _str+_size;
        }
        /
        // modify
        
        void push_back(char ch)
        {    
	        if (_size == _capacity)
	        {
		        reserve(_capacity == 0 ? 4 : _capacity * 2);//如果字符串是空,开辟四个字节
	        }
 
	        _str[_size] = ch;
	        ++_size;
	        _str[_size] = '\0';
        }

        string& operator+=(char c)
        {
            push_back(c);
            return *this;
        }

        void append(const char* str)
        {
            size_t len = strlen(str);
            if (_size + len >= _capacity)
            {
                reserve(_size + len);
            }
            strcpy(_str + _size, str);
            _size += len;
        }

        string& operator+=(const char* str)
        {
            append(str);
            return *this;
        }

        void clear()
        {
            _str[0] = '\0';
            _size = 0;
        }

        void swap(string& s)
        {
            std::swap(_size, s._size);
            std::swap(_capacity, s._capacity);
            std::swap(_str, s._str);
        }

        const char* c_str() const
        {
            return _str;
        }
        /
        // capacity
        size_t size() const
        {
            return _size;
        }

        size_t capacity() const
        {
            return _capacity;
        }

        bool empty() const
        {
            return _size == 0;
        }

        void resize(size_t n, char c = '\0')
        {
            if (n <= _size)
            {
                _str[n] = '\0';
                _size = n;
            }
            else
            {
                reserve(n);
                while (_size < n)
                {
                    _str[_size] = c;
                    _size++;
                }
                _str[_size] = '\0';
            }
        }

        void reserve(size_t n)
        {
	        if (n > _capacity)//避免缩容
	        {
		        char* tmp = new char[n + 1];
		        strcpy(tmp, _str);
		        delete[] _str;
		        _str = tmp;

		        _capacity = n;
	        }
        }
        /
        // access
        char& operator[](size_t pos)
        {
            assert(pos < _size);
            return _str[pos] ;//*(_str + index)
        }

        const char& operator[](size_t pos) const
        {
            assert(pos < _size);
            return _str[pos];//*(_str + index)
        }
        /
        //relational operators
        bool operator<(const string& s) const 
        {
            int ret = strcmp(this->_str, s._str);
            if (ret < 0)
            {
                return true;
            }
            return false;
        }

        bool operator==(const string& s) const
        {
            int ret = strcmp(this->_str, s._str);
            if (ret == 0)
            {
                return true;
            }
            return false;
        }

        bool operator<=(const string& s) const
        {
            return *this == s && *this < s;
        }

        bool operator>(const string& s) const
        {
            return !(*this <= s);
        }

        bool operator>=(const string& s) const
        {
            return !(*this < s);
        }

        bool operator!=(const string& s) const
        {
            return !(*this == s);
        }

        // 返回c在string中第一次出现的位置
        size_t find(char c, size_t pos = 0) const
        {
            while (pos < _size)
            {
                if (_str[pos] == c)
                    return pos;
                pos++;
            }
            return npos;
        }

        // 返回子串s在string中第一次出现的位置
        size_t find(const char* sub, size_t pos = 0)
        {
	        const char* p = strstr(_str + pos, sub);
	        if (p)
	        {
		        return p - _str;
	        }
	        else
	        {
		        return npos;
	        }
        }

        // 在pos位置上插入字符c/字符串str，并返回该字符的位置
        void insert(size_t pos, char ch)
        {
            assert(pos <= _size);
            if (_size == _capacity)
            {
                reserve(_capacity == 0 ? 4 : _capacity * 2);
            }

            int end = _size;
            while (end >= (int)pos)
            {
                _str[end + 1] = _str[end];
                end--;
            }
            /*size_t end = _size + 1;
            while (end > pos)
            {
                _str[end] = _str[end - 1];
                --end;
            }*/

            _str[pos] = ch;
            _size++;

        }

        void insert(size_t pos, const char* str)
        {
            assert(pos <= _size);

            size_t len = strlen(str);
            if (_size + len > _capacity)
            {
                reserve(_size + len);
            }

            // 挪动数据
            int end = _size;
            while (end >= (int)pos)
            {
                _str[end + len] = _str[end];
                --end;
            }

            strncpy(_str + pos, str, len);
            _size += len;
        }

        // 删除pos位置上的len个元素，并返回该元素的下一个位置
        void erase(size_t pos, size_t len = npos)
        {
            assert(pos < _size);

            if (len == npos || pos + len >= _size)
            {
                _str[pos] = '\0';
                _size = pos;
            }
            else
            {
                size_t begin = pos + len;
                while (begin <= _size)
                {
                    _str[begin - len] = _str[begin];
                    ++begin;
                }
                _size -= len;
            }
        }

        string substr(size_t pos = 0, size_t len = npos)
        {
            string s;
            if (len == npos || pos + len >= _size)
            {
                len = _size - pos;
            }
            s.reserve(len);
            while (len--)
            {
                s += _str[pos++];
            }
            return s;
        }
    private:
        char* _str;
        size_t _capacity;
        size_t _size;
    public:
        const static size_t npos;
    }; 
    const size_t string::npos = -1;
    ostream& operator<<(ostream& _cout, const test::string& s)
    {
        _cout << s.c_str();
        return _cout;
    }
    istream& operator>>(istream& in, string& s)
    {
        s.clear();
        char buff[129];
        size_t i = 0;
        char ch;
        ch = in.get();
        while (ch != ' ' && ch != '\n')
        {
            buff[i++] = ch;
            if (i == 128)
            {
                buff[i] = '\0';
                s += buff;
                i = 0;
            }
            //s += ch;
            ch = in.get();
        }
        if (i != 0)
        {
            buff[i] = '\0';
            s += buff;
        }
        return in;
    }
}

不是我衰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
C++之string模拟实现与string的补充

我们知道，那确定了它的结构，接下来我们就开始模拟实现它。_str_size_capacity'\0'现在是要自己实现一个string类，而标准库里面已经有string类了。所以，为了避免冲突，我们可以定义一个命名空间，把我们自己实现的string放到我们自己的命名空间里面。构造函数与析构函数。
复制链接

扫一扫

专栏目录