C++之string模拟实现与string的补充

string的结构

我们知道,string的底层其实就是一个支持动态增长的字符数组,那确定了它的结构,接下来我们就开始模拟实现它。

首先定义一个string类: 

class string
{
public:
//成员函数
private:
    char* _str;
    size_t _capacity;
    size_t _size;

};

string类的成员变量有3个,一个字符指针_str指向开辟的动态数组,_size标识有效数据个数,_capacity记录容量的大小(不包含'\0')。

现在是要自己实现一个string类,而标准库里面已经有string类了。所以,为了避免冲突,我们可以定义一个命名空间,把我们自己实现的string放到我们自己的命名空间里面。

namespace test
{
	class string
	{
	public:
    //成员函数
    private:
        char* _str;
        size_t _capacity;
        size_t _size;
	};
}

构造函数与析构函数

无参和带参构造函数

string(const char* str = "")
            :_capacity(strlen(str))
            ,_size(_capacity)
        {
            _str = new char[_capacity + 1];
            strcpy(_str, str);
        }

初始化列表初始化顺序是按照成员变量声明的顺序进行初始化,注意_capacity和_size的初始化顺序。_str最先声明,而_capacity在_str声明之后,所以可以先把_capacity和_size在初始化列表初始化,然后_str在构造函数内部初始化,并strcpy将内容拷贝过来。

注意:也可以按照声明的顺序在初始化列表初始化,但是需要多次strlen会降低效率。

缺省值不要给空指针和'\0',因为需要调用strlen。

 析构函数

~string()
    {
        delete[] _str;
        _str = nullptr;
        _size = _capacity = 0;
    }

拷贝构造

拷贝构造函数若未显式定义,编译器会生成默认的拷贝构造函数。 默认的拷贝构造函数 拷贝对象 按内存存储字节序完成拷贝,这种拷贝叫做浅拷贝,或者值拷贝。
类中如果没有涉及资源申请时,拷贝构造函数我们自己写不写都可以(因为默认生成的就可以搞定);一旦涉及到资源申请时,则拷贝构造函数是一定要写的,否则就是浅拷贝,就会出现问题。
而我们的string类,底层是一个动态顺序表,空间是我们从堆上new出来的,所以string类的拷贝构造必须是深拷贝,而默认生成的完成浅拷贝,就会出现多次析构的问题,程序崩溃。

所以需要实现一个深拷贝的拷贝构造函数:

传统:开辟一块新的空间,将字符串内容拷贝到新空间,size和capacity也拷贝过来。

// 传统写法
string(const string& s)
{
	_str = new char[s._capacity+1];
	strcpy(_str, s._str);
	_size = s._size;
	_capacity = s._capacity;
}

 优化:如果string内实现了swap成员函数,利用swap成员函数可以简便地实现拷贝构造。先用构造函数构造一个临时string对象tmp用于swap,然后将this与tmp交换,由于tmp是临时变量,会自动调用析构函数,所以为了防止this->_str未初始化是野指针析构崩溃,先将_str初始化为空指针。

//优化写法
void swap(string& s)
{
    std::swap(_str, s._str);
	std::swap(_size, s._size);
	std::swap(_capacity, s._capacity);
}

// s2(s1)
string(const string& s)
	:_str(nullptr)
	,_size(0)
	,_capacity(0)
{
	string tmp(s._str);
	swap(tmp);
}

赋值重载

默认生成的赋值重载也是浅拷贝,和拷贝构造一样,如果类中未涉及到资源管理,赋值运算符是否实现都可以;一旦涉及到资源管理则必须要自己实现。

所以我们也需要自己实现一个深拷贝的赋值重载:

赋值有这样几种情况:

不管哪种情况,我们都直接释放旧空间,然后开新空间拷贝数据

传统写法: 开辟新空间并拷贝数据,释放旧空间,最后返回。最好不要先释放空间,如果new失败了会抛异常,不过原来对象空间会被破坏,如果这样开辟空间失败也不会破坏原来空间:

string& operator=(const string& s)
{
    if(this!=&s)//防止自己给自己赋值
    {
        char* tmp = new char[s._capacity+1];
        strcpy(tmp,s._str);
        delete[] _str;
        _str = tmp;
	    _size = s._size;
	    _capacity = s._capacity;
    }
    return *this;
}

优化写法: 利用构造函数构造一个临时string对象tmp,交换*this和tmp,返回*this,由于tmp是临时对象会自动调用析构。

// s2 = s3
string& operator=(const string& s)
{
	if (this != &s)
	{
		string tmp(s);
		swap(tmp);
	}

	return *this;
}

再优化: 传参时直接传string,调用拷贝构造构造tmp,然后swap交换,返回*this,参数是临时对象出作用域会自动调用析构。

string& operator=(string tmp)
{
	swap(tmp);

	return *this;
}

string对象的遍历

operator[](const和非const)

char& operator[](size_t pos)
{
	assert(pos < _size);

	return _str[pos];
}

const char& operator[](size_t pos) const
{
	assert(pos < _size);

	return _str[pos];
}
size_t size() const
{
	return _size;
}

size函数不加const的话const对象无法调用,加了const修饰,不管是const对象还是非const对象都可以调用。 

遍历:

int main()
{
    test::string s = "hello world";
    for (int i = 0; i < s.size(); i++)
    {
        cout << s[i] << " ";
    }
    cout << endl;
}

迭代器模拟实现

那迭代器我们说了可以理解成一个像指针一样的东西,但是不一定是指针。
我们最开始介绍了STL有好几个版本,不同的版本实现可能是不一样的。
那其实vs下string的迭代器呢就不是使用指针实现的,而G++下使用的SGI版本是指针实现的。那这里我们模拟实现就使用指针来实现。 

public:
    typedef char* iterator;
    typedef const char* const_iterator;

		iterator begin()
		{
			return _str;
		}

		iterator end()
		{
			return _str + _size;
		}

		const_iterator begin() const
		{
			return _str;
		}

		const_iterator end() const
		{
			return _str + _size;
		}

有迭代器就可以使用范围for,我们之前提过,范围for的底层就是用的迭代器大家可以理解成范围for的语法其实就跟我们之前学过的宏有点类似,它会被替换成迭代器,相当于把*it赋值给e。

遍历: 

int main()
{
    test::string s = "hello world";
    for (test::string::iterator it = s.begin() ; it != s.end(); it++)
    {
        cout << *it<< " ";
    }
    cout << endl;
}
int main()
{
    test::string s = "hello world";
    for (auto e : s)
    {
        cout << e << " ";
    }
    cout << endl;
}

常见关系运算符重载

字符串之间的比较,可以考虑直接复用strcmp。        

bool operator<(const string& s) const
{
	return strcmp(_str, s._str) < 0;
}

bool operator==(const string& s) const
{
	return strcmp(_str, s._str) == 0;
}

bool operator<=(const string& s) const
{
	return *this < s || *this == s;
}

bool operator>(const string& s) const
{
	return !(*this <= s);
}

bool operator>=(const string& s) const
{
	return !(*this < s);
}

bool operator!=(const string& s) const
{
	return !(*this == s);
}

 如果this不用const修饰:

这里换一下位置就会报错,因为这样s去调<,而s是const对象,operator<是非const成员函数,const对象不能调用非const成员函数。
对于类的成员函数,如果在成员函数内部不需要改变调用它的对象,最好把它写成const成员函数。 

 数据插入删除及扩容操作

reserve和resize

void reserve(size_t n)
{
	if (n > _capacity)//避免缩容
	{
		char* tmp = new char[n + 1];
		strcpy(tmp, _str);
		delete[] _str;
		_str = tmp;

		_capacity = n;
	}
}

void resize(size_t n, char ch = '\0')
{
	if (n <= _size)//缩容
	{
		_str[n] = '\0';//_size是'\0'的下标,缩容只需要在n处加'\0'即可
		_size = n;
	}
	else//扩容并初始化
	{
		reserve(n);//n可能位于_size和_capacity之间,也可能大于_capacity,但小于_capacity时
                    //reserve不会扩容,所以这里只需要reserve(n)即可
		while (_size < n)
		{
			_str[_size] = ch;
			++_size;
		}

		_str[_size] = '\0';
	}
}

push_back和append 

void push_back(char ch)
{
	if (_size == _capacity)
	{
		reserve(_capacity == 0 ? 4 : _capacity * 2);//如果字符串是空,开辟四个字节
	}

	_str[_size] = ch;
	++_size;
	_str[_size] = '\0';
}

void append(const char* str)
{
	size_t len = strlen(str);
	if (_size + len > _capacity)
	{
		reserve(_size + len);
	}

	strcpy(_str + _size, str);
	_size += len;
}

push_back一次只插入一个字符的话,可以用_size == _capacity判断扩容条件和扩容大小(2倍或1.5倍),append不能确定字符串长度,扩容需要扩指定长度。

 +=

 复用push_back和append即可

string& operator+=(char ch)
{
	push_back(ch);
	return *this;
}

string& operator+=(const char* str)
{
	append(str);
	return *this;
}

 insert与erase

Insert

错误代码: 

void insert(size_t pos, char ch)
{
    assert(pos <= _size);
    if (_size == _capacity)
    {
        reserve(_capacity == 0 ? 4 : _capacity * 2);
    }

    size_t end = _size;
    while (end >= pos)
    {
        _str[end + 1] = _str[end];
        end--;
    }
    _str[pos] = ch;
    _size++;
}

 在0位置插入直接报错,当pos为0时,end等于0时还会进入循环,end再- -变成多少?
这里end的类型是szie_t,无符号整型,所以这里end为0后再- -并不是-1,而是整型最大值,那就越界了,循环也没正常结束,所以程序崩了。

 把end的类型变成int?int类型和unsigned int 类型运算会隐式类型转换成unsigned int,所以可以将pos强转为int。

正确代码:

void insert(size_t pos, char ch)
{
    assert(pos <= _size);
    if (_size == _capacity)
    {
        reserve(_capacity == 0 ? 4 : _capacity * 2);
    }

    int end = _size;
    while (end >= (int)pos)
    {
        _str[end + 1] = _str[end];
        end--;
    }
    _str[pos] = ch;
    _size++;
}

也可以改变插入方式,end初始化为_size+1,判断条件中end为0即终止: 

void insert(size_t pos, char ch)
{
	assert(pos <= _size);
	if (_size == _capacity)
	{
		reserve(_capacity == 0 ? 4 : _capacity * 2);
	}

	size_t end = _size + 1;
    //int end = _size;
    //while (end >= (int)pos)
    //{
    //    _str[end + 1] = _str[end];
    //    end--;
    //}
	while (end > pos)
	{
		_str[end] = _str[end - 1];
		--end;
	}

	_str[pos] = ch;
	_size++;
}

在pos位置插入一个字符串 :

void insert(size_t pos, const char* str)
{
	assert(pos <= _size);

	size_t len = strlen(str);
	if (_size + len > _capacity)
	{
		reserve(_size + len);
	}

	// 挪动数据
	int end = _size;
	while (end >= (int)pos)
	{
		_str[end + len] = _str[end];
		--end;
	}

	strncpy(_str + pos, str, len);
	_size += len;
}

Erase

len为npos或长度超出字符串长度,直接在pos位置加'\0',否则直接挪动数据。

void erase(size_t pos = 0, size_t len = npos)
{
	assert(pos < _size);

	if (len == npos || pos +len >= _size)
	{
		_str[pos] = '\0';
		_size = pos;
	}
	else
	{
		size_t begin = pos + len;
		while (begin <= _size)
		{
			_str[begin-len] = _str[begin];
			++begin;
		}
		_size -= len;
	}
}

npos 

顺便提一下npos,我们知道C++11开始支持类的成员变量在声明的时候给缺省值,但是有个前提,必须是非静态成员变量才可以在类中声明的时候可以给缺省值。静态成员变量是不能在声明时给缺省值的。
对于静态成员变量:规定静态成员变量的初始化(定义的时候赋初值)一定要在类外,定义时不添加static关键字,类中只是声明。

但是呢,加了const之后 ,静态成员变量可以在声明时给缺省值:

但这样的写法,只支持整型: 

按照正常的写法更统一: 

 find和substr

遍历寻找即可 

size_t find(char ch, size_t pos = 0)
{
	for (size_t i = pos; i < _size; i++)
	{
		if (_str[i] == ch)
		{
			return i;
		}
	}

	return npos;
}

调用strstr函数寻找sub字符串的位置,如果找到用指针-指针的方式得到字符串首元素的下标。 

size_t find(const char* sub, size_t pos = 0)
{
	const char* p = strstr(_str + pos, sub);
	if (p)
	{
		return p - _str;
	}
	else
	{
		return npos;
	}
}

 substr返回一个string,因为内部创建了一个临时变量。

string substr(size_t pos = 0, size_t len = npos)
{
    string s;
    if (len == npos || pos + len >= _size)
    {
          len = _size - pos;
    }
    s.reserve(len);
    while (len--)
    {
          s += _str[pos++];
    }
    return s;
}

流插入流提取

流插入:

ostream& operator<<(ostream& out, const string& s)
{
	for (auto ch : s)
		out << ch;
	return out;
}

流提取:

用一个循环,一个字符一个字符的去缓冲区里提取,然后插入到s里,遇到空格或者换行就停止。 

istream& operator>>(istream& in, string& s)
  {
      char ch;
      cin >> ch;
      while (ch != ' ' && ch != '\n')
      {
          s += ch;
          cin >> ch;
      }
      return in;
  }

但是发现无法终止读取,原因在于cin它读不到缓冲区里的空格和换行,为什么读不到呢?
之前也提到过,C语言里的scanf,包括这里的cin,我们在用它们输入的时候是不是有可能输入多个值啊,那当我们输入多个值的时候,它们默认是以空格或者换行来区分我们输入的多个值的。
所以它遇到缓冲区里的空格或者换行的时候,它会认为这是你输入多个值的一个区分,会自动忽略掉它们,不会去提取,所以这里就读不到空格和换行,那循环就不会结束。
 

我们可以用这个: 可以看到get函数是以'\n'为分隔符的,它可以读到空格和换行符。

    istream& operator>>(istream& in, string& s)
    {
        char ch = in.get();
        while (ch != ' ' && ch != '\n')
        {
            s += ch;
            ch = in.get();
        }
        return in;
    }
}

但如果string对象原来就有数据怎么办,每次读取前都要先清空数据。 

void clear()
{
    _str[0] = '\0';
     _size = 0;
}

istream& operator>>(istream& in, string& s)
{
    s.clear();
    char ch = in.get();
    while (ch != ' ' && ch != '\n')
    {
        s += ch;
        ch = in.get();
    }
    return in;
}

如果我们输入一个特别长的字符串,那这个地方在不断+=字符的过程中是不是可能会频繁扩容啊,那我们有没有什么办法可以解决一下呢?库里面呢用了一种类似于这样的方式:

istream& operator>>(istream& in, string& s)
{
    s.clear();

	char buff[129];
	size_t i = 0;

	char ch;
	ch = in.get();
	while (ch != ' ' && ch != '\n')
	{
		buff[i++] = ch;
		if (i == 128)
		{
			buff[i] = '\0';
			s += buff;
			i = 0;
		}
		//s += ch;
		ch = in.get();
	}

	if (i != 0)
	{
		buff[i] = '\0';
		s += buff;
	}

	return in;
}

这里开了一个数组,每次先把字符一个个放到数组中,满了的话就+=到s里(以字符串的形式),然后把i置成0,后面继续放数组里。那这样做相对而言扩容就不会那么频繁了。

写时拷贝

如果现在有一个string对象s2是s1拷贝构造出来的,在vs上面s2直接就是s1是深拷贝(vs是PJ版本STL,g++是SGI版本STL)。而在Linux的G++(采用的是SGI版本)下面则是写时拷贝:

写时拷贝就是一种拖延症,是在浅拷贝的基础之上增加了引用计数的方式来实现的。
引用计数:用来记录资源使用者的个数。在构造时,将资源的计数给成1,每增加一个对象使用该资源,就给计数增加1;当某个对象被销毁时,先给该计数减1,然后再检查是否需要释放资源,如果计数为1,说明该对象是资源的最后一个使用者,将该资源释放;否则就不能释放,因为还有其他对象在使用该资源。

每当我们为string分配内存时,我们总是要多分配一个空间用来存放这个引用计数的值,只要发生拷贝构造和赋值时,这个内存的值就会加一。

s2是s1的拷贝,把引用计数加1,表示现在有两个对象使用这块资源。

释放s2的时候,就把引用计数减1,而不是真的释放这块空间。

s1释放的时候,引用计数为0,就可以释放了。

那这个地方是不是不拷贝啊?不是的,写时拷贝,写时拷贝,就是写的时候才拷贝。在内容修改时,string类为查看这个引用计数是否为0,如果不为零,表示有人在共享这块内存,那么自己需要先做一份拷贝,然后把引用计数减去一,再把数据拷贝过来。
还拿上面那个例子来说,如果s2只是拷贝s1,我们并没有修改s2,那它们两个就可以共用一块空间,如果我们去修改了s2的内容,那这个时候才会进行真正的拷贝,为s2开一块独立的空间,然后把s1的内容拷贝下来,然后你要修改数据就在你自己的这块空间上进行修改。
修改数据才会触发写时拷贝(Copy-On-Write),不修改当然就不会改。这就是托延战术的真谛,非到要做的时候才去做。

综合:

namespace test
{
    class string
    {
        friend ostream& operator<<(ostream& _cout, const test::string& s);
        friend istream& operator>>(istream& _cin, test::string& s);
    public:
        typedef char* iterator;
        typedef const char* const_iterator;
    public:
        string(const char* str = "")
            :_capacity(strlen(str))
            ,_size(_capacity)
        {
            _str = new char[_capacity + 1];
            strcpy(_str, str);
        }

        string(const string& s)
            :_str(nullptr)
            ,_size(0)
            ,_capacity(0)
        {
            string tmp(s._str);
            swap(tmp);
        }

        string& operator=(string tmp)
        {
            swap(tmp);
            return *this;
        }
        ~string()
        {
            delete[] _str;
            _str = nullptr;
            _size = _capacity = 0;
        }
        //
        // iterator
        iterator begin()
        {
            return _str;
        }
        iterator end()
        {
            return _str + _size;
        }
        const_iterator begin() const
        {
            return _str;
        }
        const_iterator end() const
        {
            return _str+_size;
        }
        /
        // modify
        
        void push_back(char ch)
        {    
	        if (_size == _capacity)
	        {
		        reserve(_capacity == 0 ? 4 : _capacity * 2);//如果字符串是空,开辟四个字节
	        }
 
	        _str[_size] = ch;
	        ++_size;
	        _str[_size] = '\0';
        }

        string& operator+=(char c)
        {
            push_back(c);
            return *this;
        }

        void append(const char* str)
        {
            size_t len = strlen(str);
            if (_size + len >= _capacity)
            {
                reserve(_size + len);
            }
            strcpy(_str + _size, str);
            _size += len;
        }

        string& operator+=(const char* str)
        {
            append(str);
            return *this;
        }

        void clear()
        {
            _str[0] = '\0';
            _size = 0;
        }

        void swap(string& s)
        {
            std::swap(_size, s._size);
            std::swap(_capacity, s._capacity);
            std::swap(_str, s._str);
        }

        const char* c_str() const
        {
            return _str;
        }
        /
        // capacity
        size_t size() const
        {
            return _size;
        }

        size_t capacity() const
        {
            return _capacity;
        }

        bool empty() const
        {
            return _size == 0;
        }

        void resize(size_t n, char c = '\0')
        {
            if (n <= _size)
            {
                _str[n] = '\0';
                _size = n;
            }
            else
            {
                reserve(n);
                while (_size < n)
                {
                    _str[_size] = c;
                    _size++;
                }
                _str[_size] = '\0';
            }
        }

        void reserve(size_t n)
        {
	        if (n > _capacity)//避免缩容
	        {
		        char* tmp = new char[n + 1];
		        strcpy(tmp, _str);
		        delete[] _str;
		        _str = tmp;

		        _capacity = n;
	        }
        }
        /
        // access
        char& operator[](size_t pos)
        {
            assert(pos < _size);
            return _str[pos] ;//*(_str + index)
        }

        const char& operator[](size_t pos) const
        {
            assert(pos < _size);
            return _str[pos];//*(_str + index)
        }
        /
        //relational operators
        bool operator<(const string& s) const 
        {
            int ret = strcmp(this->_str, s._str);
            if (ret < 0)
            {
                return true;
            }
            return false;
        }

        bool operator==(const string& s) const
        {
            int ret = strcmp(this->_str, s._str);
            if (ret == 0)
            {
                return true;
            }
            return false;
        }

        bool operator<=(const string& s) const
        {
            return *this == s && *this < s;
        }

        bool operator>(const string& s) const
        {
            return !(*this <= s);
        }

        bool operator>=(const string& s) const
        {
            return !(*this < s);
        }

        bool operator!=(const string& s) const
        {
            return !(*this == s);
        }

        // 返回c在string中第一次出现的位置
        size_t find(char c, size_t pos = 0) const
        {
            while (pos < _size)
            {
                if (_str[pos] == c)
                    return pos;
                pos++;
            }
            return npos;
        }

        // 返回子串s在string中第一次出现的位置
        size_t find(const char* sub, size_t pos = 0)
        {
	        const char* p = strstr(_str + pos, sub);
	        if (p)
	        {
		        return p - _str;
	        }
	        else
	        {
		        return npos;
	        }
        }

        // 在pos位置上插入字符c/字符串str,并返回该字符的位置
        void insert(size_t pos, char ch)
        {
            assert(pos <= _size);
            if (_size == _capacity)
            {
                reserve(_capacity == 0 ? 4 : _capacity * 2);
            }

            int end = _size;
            while (end >= (int)pos)
            {
                _str[end + 1] = _str[end];
                end--;
            }
            /*size_t end = _size + 1;
            while (end > pos)
            {
                _str[end] = _str[end - 1];
                --end;
            }*/

            _str[pos] = ch;
            _size++;

        }

        void insert(size_t pos, const char* str)
        {
            assert(pos <= _size);

            size_t len = strlen(str);
            if (_size + len > _capacity)
            {
                reserve(_size + len);
            }

            // 挪动数据
            int end = _size;
            while (end >= (int)pos)
            {
                _str[end + len] = _str[end];
                --end;
            }

            strncpy(_str + pos, str, len);
            _size += len;
        }

        // 删除pos位置上的len个元素,并返回该元素的下一个位置
        void erase(size_t pos, size_t len = npos)
        {
            assert(pos < _size);

            if (len == npos || pos + len >= _size)
            {
                _str[pos] = '\0';
                _size = pos;
            }
            else
            {
                size_t begin = pos + len;
                while (begin <= _size)
                {
                    _str[begin - len] = _str[begin];
                    ++begin;
                }
                _size -= len;
            }
        }

        string substr(size_t pos = 0, size_t len = npos)
        {
            string s;
            if (len == npos || pos + len >= _size)
            {
                len = _size - pos;
            }
            s.reserve(len);
            while (len--)
            {
                s += _str[pos++];
            }
            return s;
        }
    private:
        char* _str;
        size_t _capacity;
        size_t _size;
    public:
        const static size_t npos;
    }; 
    const size_t string::npos = -1;
    ostream& operator<<(ostream& _cout, const test::string& s)
    {
        _cout << s.c_str();
        return _cout;
    }
    istream& operator>>(istream& in, string& s)
    {
        s.clear();
        char buff[129];
        size_t i = 0;
        char ch;
        ch = in.get();
        while (ch != ' ' && ch != '\n')
        {
            buff[i++] = ch;
            if (i == 128)
            {
                buff[i] = '\0';
                s += buff;
                i = 0;
            }
            //s += ch;
            ch = in.get();
        }
        if (i != 0)
        {
            buff[i] = '\0';
            s += buff;
        }
        return in;
    }
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值