C++学习记录——십일 string类模拟实现-CSDN博客

本文链接：https://blog.csdn.net/kongqizyd146/article/details/129114891

本文逐步介绍了如何从错误中构建一个简单的C++string类，包括初始化列表、拷贝构造函数和赋值操作符、循环输出和迭代器的实现，以及插入、删除和流插入流提取功能。文章强调了在实现过程中需要注意的细节，如深拷贝、权限控制和异常处理。

摘要由CSDN通过智能技术生成

这篇对于string类的实现会一步步来，从错误到正确，尽量展现可能会忽略掉的细节。

文章目录

1、初始化列表
2、拷贝构造函数和赋值函数
3、循环输出，迭代器
4、插入删除等
5、流插入流提取
6、其它接口

1、初始化列表

先写下来这些代码

String.h
#pragma once
#include <string.h>
#include <iostream>
using namespace std;

namespace zyd
{
	class string
	{
	public:
		string()
			:_str(nullptr)
			,_size(0)
			,_capacity(0)
		{}
		string(const char* str)
			:_str(str)
			,_size(strlen(str))
			,_capacity(strlen(str))
		{}

		const char* c_str()
		{
			return _str;
		}
	private:
		const char* _str;
		size_t _size;
		size_t _capacity;
	};
	void test_string1()
	{
		string s1;
		string s2("hello world");
		cout << s1.c_str() << endl;
		cout << s2.c_str() << endl;
	}
}

Test.cpp
#include "String.h"

int main()
{
	zyd::test_string1();
	return 0;
}

私有成员变量里，_str用const修饰，是为了防止权限放大，比如在string(const char* str)里，_str(str)，如果不是用const修饰的_str，就会报错。

现在的结果是程序崩了。哪个地方崩了？流插入流提取是自动识别类型的，遇到const char*的变量，会解引用，访问内容，而在我们写的初始化列表里，_str被初始化成了nullptr，所以cout直接遇到了nullptr。并且s2也有问题，hello world会是一个const修饰的常量字符串，在常量区存储，访问pos位置的字符，检查大小准备扩容等函数时这方面错误会更加放大。所以初始化列表那里出了问题。

如果要修改内容，那么我们可以先new一个空间，再放入内容。不过三个变量就不都放在一起了，如果_str(new…)那么下面两个还需要strlen两次。简化一下。

		string(const char* str)
			:_size(strlen(str))
		{
			_capacity = _size;
			_str = new char[_capacity + 1];
			strcpy(_str, str);
		}

+1是给’\0’做准备。因为strcpy，_str就不能是const char了，得是char类型。

另一个无参函数，也是要new，不过要写成new char[1]，方便析构函数。

		string()
			:_str(new char[1])
			,_size(0)
			,_capacity(0)
		{
			_str[0] = '\0';
		}

        ~string()
		{
			delete[] _str;
			_str = nullptr;
			_size = _capacity = 0;
		}

现在就没错了

		string()
			:_str(new char[1])
			,_size(0)
			,_capacity(0)
		{
			_str[0] = '\0';
		}

		string(const char* str)
			:_size(strlen(str))
		{
			_capacity = _size;
			_str = new char[_capacity + 1];
			strcpy(_str, str);
		}

		const char* c_str()
		{
			return _str;
		}

		~string()
		{
			delete[] _str;
			_str = nullptr;
			_size = _capacity = 0;
		}

并且也可以修改字符串，写上pos位置函数和返回大小函数。

		char& operator[](size_t pos)
		{
			assert(pos < _size);
			return _str[pos];
		}

		size_t size()
		{
			return _size;
		}

比如s2[0]++，就变成iello world。

继续简化，初始化列表可以缩减成一个全缺省函数。

		string(const char* str = "")
			:_size(strlen(str))
		{
			_capacity = _size == 0 ? 4 : _size;
			_str = new char[_capacity + 1];
			strcpy(_str, str);
		}

缺省值如果是nullptr，肯定是不行，也不能是’\0’，类型不匹配，倒是可以写成"\0",不过给""更好，因为字符串默认会以\0结束。

2、拷贝构造函数和赋值函数

添加一个s3，写拷贝构造函数。如果用默认的，编译器会崩溃，因为浅拷贝，会出现同一空间析构两次并且修改一个会影响另一个的问题，经典案例。

		string(const string& s)
			:_size(s._size)
			,_capacity(s._capacity)
		{
			_str = new char[s._capacity + 1];
			strcpy(_str, s._str);
		}

		string s3(s2);
		cout << s1.c_str() << endl;
		cout << s3.c_str() << endl;
		s2[0]++;
		cout << s2.c_str() << endl;

这里的深拷贝是先把size和capacity拿到手，然后new一个空间再去拷贝过去。

除此之外，还有赋值需要写。

		s1 = s3;
		cout << s1.c_str() << endl;

赋值应该怎么写？如果s1和s3两个字符串长度相同，那就直接覆盖；s1 < s3，就不能这样了，s1就得重开空间；s1 > s3，这样似乎是可以直接覆盖过去的，但假设s1很大，s3很小，那么s1后面大部分的空间我们都没有用到它们，虽然没有造成内存泄漏，但浪费空间里。所以这里的办法就是无论怎样，s1都释放点，重开空间，然后s3覆盖过去。

		string& operator=(const string& s)
		{
			if (this != &s)
			{
				delete[] _str;
				_str = new char[s._capacity + 1];
				strcpy(_str, s._str);
				_size = s._size;
				_capacity = s._capacity;
			}
			return *this;
		}

加上判断是因为如果自己给自己赋值，不加判断的话会出现随机值，因为有一开始就释放掉自己了。但这个程序仍然不行，它先手破坏掉了s1，如果new失败了，那么整个函数就失败了，s1也没了，所以得用个替死鬼。

		string& operator=(const string& s)
		{
			if (this != &s)
			{
				char* tmp = new char[s._capacity + 1];
				strcpy(tmp , s._str);
				delete[] _str;
				_str = tmp;
				_size = s._size;
				_capacity = s._capacity;
			}
			return *this;
		}

3、循环输出，迭代器

现在遍历一下string类对象

		string s1("hello world");
		for (size_t i = 0; i < s1.size(); ++i)
		{
			s1[i]++;
		}
		cout << endl;
		for (size_t i = 0; i < s1.size(); ++i)
		{
			cout << s1[i] << " ";
		}
		cout << endl;

假如把这个输出的循环代码放到一个函数里，那么为了不被改变，要加const，后面跟引用，括号里就是const string& s，这样在函数体内要就得注意了，因为这已经出现了权限放大的问题，那[] ，size这两个函数就都加上const，但是加上const就意味着无法修改。那就重载一下，一个const，一个不加const即可。

		const char& operator[](size_t pos) const 
		{
			assert(pos < _size);
			return _str[pos];
		}

		char& operator[](size_t pos)
		{
			assert(pos < _size);
			return _str[pos];
		}

		size_t size() const 
		{
			return _size;
		}

		void Print(const string& s)
		{
			for (size_t i = 0; i < s.size(); ++i)
			{
				cout << s[i] << " ";
			}
			cout << endl;
		}

除去用下标遍历string的方式，还可以用范围for，迭代器来进行遍历。

		typedef char* iterator;
		iterator begin()
		{
			return _str;
		}

		iterator end()
		{
			return _str + _size;
		}



		string::iterator it = s1.begin();
		while (it != s1.begin())
		{
			cout << *it << " ";
			++it;
		}
		cout << endl;

迭代器会比较自由点，可以先把每个字符往前挪一位，（*it）–，h变成g。

		for (auto ch : s1)
		{
			cout << ch << " ";
		}
		cout << endl;

但范围for底层也就是迭代器，并且傻瓜式地做法，调用的就是begin，end，如果定义的是Begin，End函数，那么范围for就失效了，所以自定义实现的时候必须得写begin和end才能使用迭代器。

在begin和end函数处，还需要加上const的两个函数，有时范围for的s是一个const对象，调用非const的begin和end就不可行。

typedef const char* const_iterator;
		const_iterator begin() const
		{
			return _str;
		}

		const_iterator end() const
		{
			return _str + _size;
		}

也typedef一个const的迭代器名字，区分开非const迭代器。但const迭代器就是只读的了。

		void Print(const string& s)
		{
			for (size_t i = 0; i < s.size(); ++i)
			{
				cout << s[i] << " ";
			}
			cout << endl;

			string::const_iterator it = s.begin();
			while (it != s.end())
			{
			    cout << it;
				++it;
			}
			cout << endl;

			for (auto ch : s)
			{
				cout << ch << " ";
			}
			cout << endl;
		}

一个常规写法，一个迭代器写法，一个const写法。

string类有比较大小函数。比较的方法就是一个个比较ANSCII码值。

		bool operator>(const string& s) const 
		{
			return strcmp(_str, s._str) > 0;
		}

		bool operator==(const string& s) const
		{
			return strcmp(_str, s._str) == 0;
		}

		bool operator>=(const string& s) const
		{
			return *this > s || *this == s;
		}

		bool operator<(const string& s) const
		{
			return !(*this >= s);
		}

		bool operator<=(const string& s) const
		{
			return !(*this > s);
		}

		bool operator!=(const string& s) const
		{
			return !(*this == s);
		}

不修改成员变量数据的函数，就加上const，防止用const对象调用它们。

测试一下

	void test_string3()
	{
		string s1("hello world");
		string s2("hello");
		string s3("xyz");

		cout << (s1 < s2) << endl;
		cout << (s2 >= s3) << endl;
		cout << (s3 == s1) << endl;
	}

4、插入删除等

		void reserve(size_t n)
		{
			char* tmp = new char[n + 1];
			strcpy(tmp, _str);
			delete[] _str;
			_str = tmp;
			_capacity = n;
		}

		void push_back(char ch)
		{
			if (_size + 1 > _capacity)
			{
				reserve(_capacity * 2);
			}
			_str[_size] = ch;
			++_size;
			_str[_size] = '\0';
		}

		void append(const char* str)
		{
			size_t len = strlen(str);
			if (_size + len > _capacity)
			{
				reserve(_size + len);
			}
			strcpy(_str + _size, str);
			_size += len;
		}

不仅要插入一个字符，还有整个字符串。

简化一下写法就可以用+=

		string& operator+=(const char* str)
		{
			append(str);
			return *this;
		}

		string& operator+=(const char ch)
		{
			push_back(ch);
			return *this;
		}

接下来要写一个resize函数，写这个之前，先看一下之前reserve函数的问题，如果要开的空间比之前的小，会出现越界的问题，这时候不如不调整空间大小，什么也不做，在原本的基础上加一个判断。

		void reserve(size_t n)
		{
			if (n > _capacity)
			{
				char* tmp = new char[n + 1];
				my_strcpy(tmp, _str);
				delete[] _str;
				_str = tmp;
				_capacity = n;
			}
		}

//测试代码
        string s1("hello worldddddddddddd");
		cout << s1.capacity() << endl;
		s1.reserve(10);
		cout << s1.capacity() << endl;

再看resize。resize的用途是初始化，对一个对象多次resize，不会去掉之前的值，而是在后面再加值

		std::string s2;
		s2.resize(20, 'x');
		cout << s2.c_str() << endl;
		s2.resize(30, 'y');
		cout << s2.c_str() << endl;

在这里插入图片描述

如果后面的数字比前面小

		std::string s2;
		s2.resize(20, 'x');
		cout << s2.c_str() << endl;
		s2.resize(30, 'y');
		cout << s2.c_str() << endl;
		s2.resize(10, 'z');
		cout << s2.c_str() << endl;

在这里插入图片描述

保留了前十个，虽然只展现了10个，但是容量还是最大的那个数值，编译器不会去缩容的，缩容可能会出现其它问题。

对于这个括号里代表大小的参数n，它有三个情况，小于size，size < n < capacity，大于capacity。

		void resize(size_t n, char ch = '\0')
		{
			if (n <= _size)
			{
				_size = n;
				_str[_size] = '\0';
			}
			else
			{
				if (n > _capacity)
				{
					reserve(n);
				}
				size_t i = _size;
				while (i < n)
				{
					_str[i] = ch;
					++i;
				}
				_size = n;
				_str[_size] = '\0';
			}
		}

分为两个情况，小于size就只取前n个元素，如果大于，大于capacity就扩容，只是大于size那就一个个放进去，最后加入一个size。

特定位置插入删除

两个insert函数和一个erase函数，erase的作用就是从某个位置删除n个字符，并且给一个缺省值npos，意思就是没给就全删。定义一个静态变量npos，不给他缺省值，是因为它属于整个类，在静态区。那么在类某个地方初始化它就行：size_t string::npos = -1。

也可以这样写

private:
    static const size_t npos;

const static size_t npos = -1;//可以把它放在迭代器声明的位置
//如果放在类外面，命名空间里面，就得这样写：const size_t string::npos = -1;

private:
    static  size_t npos;

 static size_t npos = -1;

不过用上const，还只能加在int类型前面。

insert有字符和字符串两个函数，插入字符函数如果这样写

		string& insert(size_t pos, char ch)
		{
			assert(pos <= _size);
			if (_size + 1 > _capacity)
			{
				reserve(2 * _capacity);
			}
			size_t end = _size;
			while (end >= pos)
			{
				_str[end + 1] = _str[end];
				--end;
			}
			_str[pos] = ch;
			++_size;
			return *this;
		}

那么面临一个问题，在0位置处插入字符会出错。由于end是size_t类型，那么end减到0的时候，再减一次就会变成很大的数，那么整个循环无法结束，也越界了。改成int还是不好，到了0再减一次变成-1后，循环还会继续，是因为pos是无符号整数，两个数进行比较时会进行隐式类型转换，有符号转为无符号，如果把pos改为int类型，也有些不妥，和库里的pos类型不一样了。那么我们改一下循环。

			size_t end = _size + 1;
			while (end > pos)
			{
				_str[end] = _str[end - 1];
				--end;
			}

插入字符串函数

		string& insert(size_t pos, const char* str)
		{
			assert(pos <= _size);
			size_t len = strlen(str);
			if (_capacity < _size + len)
			{
				reserve(_size + len);
			}
			size_t end = _size + len;
			while (end > pos + len - 1)
			{
				_str[end] = _str[end - len];
				--end;
			}
			strncpy(_str + pos, str, len);
			_size += len;
			return *this;
		}

其实也是控制变量，保证不出错，里面还有考虑扩容。

erase函数

		string& erase(size_t pos, size_t len = npos)
		{
		    assert(pos < _size);
			if (len == npos || pos + len >= _size)
			{
				_str[pos] = '\0';
				_size = pos;
			}
			else
			{
				strcpy(_str + pos, _str + pos + len);
				_size -= len;
			}
		}

        string s2("gusihkjaesdf");
		s2.erase(10, 3);
		cout << s2.c_str() << endl;
		s2.erase(10, 30);
		cout << s2.c_str() << endl;
		s2.erase(4);
		cout << s2.c_str() << endl;

在这里插入图片描述

写了insert后，push_back和append就可以这样实现

insert(_size, ch);
insert(_size, str);

5、流插入流提取

这里不写成成员函数，写成全局的

	ostream& operator<<(ostream& out, const string& s)
	{
		for (auto ch : s)
		{
			out << ch;
		}
		return out;
	}

	istream& operator>>(istream& in, string& s)
	{
		char ch = in.get();
		while (ch != ' ' && ch != '\n')
		{
			s += ch;
			ch = in.get();
		}
		return in;
	}

流提取里，用get是为了接收每一个字符，防止被系统当做字符与字符之间的间隔而无法继续输入。

测试代码

		string s1("0123456789");
		s1 += "hjdsk";
		cout << s1 << endl;
		cout << s1.c_str() << endl;

		string s2;
		cin >> s2;
		cout << s2 << endl;

现在没有问题，如果测试s1的流提取，就出现随机符号了。

那在提取之前先清空一下就好

		void clear()
		{
			_str[0] = '\0';
			_size = 0;
		}

	istream& operator>>(istream& in, string& s)
	{
		s.clear();
		char ch = in.get();
		while (ch != ' ' && ch != '\n')
		{
			s += ch;
			ch = in.get();
		}
		return in;
	}

如果输入很长的字符，+=就需要一直扩容，这里有这样一个办法解决，固定地一块块增加，reserve可能面临该增容多少的问题。

	istream& operator>>(istream& in, string& s)
	{
		s.clear();
		char ch = in.get();
		char buff[128];
		size_t i = 0;
		while (ch != ' ' && ch != '\n')
		{
			buff[i++] = ch;
			if (i == 127)
			{
				buff[127] = '\0';
				s += buff;
				i = 0;
			}
			ch = in.get();
		}
		if (i != 0)
		{
			buff[i] = '\0';
			s += buff;
		}
		return in;
	}

库里也是相似的办法解决。

6、其它接口

		void swap(string& s)
		{
			std::swap(_str, s._str);
			std::swap(_capacity, s._capacity);
			std::swap(_size, s._size);
		}

		size_t find(char ch, size_t pos = 0)
		{
			assert(pos < _size);
			for (size_t i = pos; i < _size; ++i)
			{
				if (_str[i] == ch)
					return i;
			}
			return npos;
		}

		size_t find(const char* str, size_t pos = 0)
		{
			assert(pos < _size);
			char* ptr = strstr(_str + pos, str);
			if (ptr == nullptr)
				return npos;
			else
				return ptr - _str;
		}