copy_on_write技术

最新推荐文章于 2023-11-17 07:52:14 发布

lm_y

最新推荐文章于 2023-11-17 07:52:14 发布

阅读量356

点赞数

分类专栏： linux Linux

linux 同时被 2 个专栏收录

140 篇文章 4 订阅

订阅专栏

Linux

57 篇文章 5 订阅

订阅专栏

1. std::string中的COW技术

（转自：http://blog.csdn.net/haoel/article/details/24058）

1、概念

Scott Meyers在《More Effective C++》中举了个例子，不知你是否还记得？在你还在上学的时候，你的父母要你不要看电视，而去复习功课，于是你把自己关在房间里，做出一副正在复习功课的样子，其实你在干着别的诸如给班上的某位女生写情书之类的事，而一旦你的父母出来在你房间要检查你是否在复习时，你才真正捡起课本看书。这就是“拖延战术”，直到你非要做的时候才去做。

当然，这种事情在现实生活中时往往会出事，但其在编程世界中摇身一变，就成为了最有用的技术，正如C++中的可以随处声明变量的特点一样，Scott Meyers推荐我们，在真正需要一个存储空间时才去声明变量（分配内存），这样会得到程序在运行时最小的内存花销。执行到那才会去做分配内存这种比较耗时的工作，这会给我们的程序在运行时有比较好的性能。必竟，20%的程序运行了80%的时间。

当然，拖延战术还并不只是这样一种类型，这种技术被我们广泛地应用着，特别是在操作系统当中，当一个程序运行结束时，操作系统并不会急着把其清除出内存，原因是有可能程序还会马上再运行一次（从磁盘把程序装入到内存是个很慢的过程），而只有当内存不够用了，才会把这些还驻留内存的程序清出。

写时才拷贝（Copy-On-Write）技术，就是编程界“懒惰行为”——拖延战术的产物。举个例子，比如我们有个程序要写文件，不断地根据网络传来的数据写，如果每一次fwrite或是fprintf都要进行一个磁盘的I/O操作的话，都简直就是性能上巨大的损失，因此通常的做法是，每次写文件操作都写在特定大小的一块内存中（磁盘缓存），只有当我们关闭文件时，才写到磁盘上（这就是为什么如果文件不关闭，所写的东西会丢失的原因）。更有甚者是文件关闭时都不写磁盘，而一直等到关机或是内存不够时才写磁盘，Unix就是这样一个系统，如果非正常退出，那么数据就会丢失，文件就会损坏。

呵呵，为了性能我们需要冒这样大的风险，还好我们的程序是不会忙得忘了还有一块数据需要写到磁盘上的，所以这种做法，还是很有必要的。

2、标准C++类std::string的Copy-On-Write

在我们经常使用的STL标准模板库中的string类，也是一个具有写时才拷贝技术的类。C++曾在性能问题上被广泛地质疑和指责过，为了提高性能，STL中的许多类都采用了Copy-On-Write技术。这种偷懒的行为的确使使用STL的程序有着比较高要性能。

这里，我想从C++类或是设计模式的角度为各位揭开Copy-On-Write技术在string中实现的面纱，以供各位在用C++进行类库设计时做一点参考。

在讲述这项技术之前，我想简单地说明一下string类内存分配的概念。通过常，string类中必有一个私有成员，其是一个char*，用户记录从堆上分配内存的地址，其在构造时分配内存，在析构时释放内存。因为是从堆上分配内存，所以string类在维护这块内存上是格外小心的，string类在返回这块内存地址时，只返回const char*，也就是只读的，如果你要写，你只能通过string提供的方法进行数据的改写。

2.1、特性

由表及里，由感性到理性，我们先来看一看string类的Copy-On-Write的表面特征。让我们写下下面的一段程序：

#include

using namespace std;

main()

{

string str1 = "hello world";

string str2 = str1;

printf ("Sharing the memory:/n");

printf ("/tstr1's address: %x/n", str1.c_str() );

printf ("/tstr2's address: %x/n", str2.c_str() );

str1[1]='q';

str2[1]='w';

printf ("After Copy-On-Write:/n");

printf ("/tstr1's address: %x/n", str1.c_str() );

printf ("/tstr2's address: %x/n", str2.c_str() );

return 0;

}

这个程序的意图就是让第二个string通过第一个string构造，然后打印出其存放数据的内存地址，然后分别修改str1和str2的内容，再查一下其存放内存的地址。程序的输出是这样的（我在VC6.0和g++ 2.95都得到了同样的结果）：

> g++ -o stringTest stringTest.cpp

> ./stringTest

Sharing the memory:

str1's address: 343be9

str2's address: 343be9

After Copy-On-Write:

str1's address: 3407a9

str2's address: 343be9

从结果中我们可以看到，在开始的两个语句后，str1和str2存放数据的地址是一样的，而在修改内容后，str1的地址发生了变化，而str2的地址还是原来的。从这个例子，我们可以看到string类的Copy-On-Write技术。

2.shared_ptr实现copy-on-write

（转自：http://blog.csdn.net/solstice/article/details/3351751）

借shared_ptr实现copy-on-write

场景：
一个多线程的C++程序，24h x 5.5d运行。有几个工作线程ThreadW{0,1,2,3}，处理客户发过来的交易请求，另外有一个背景线程ThreadB，不定期更新程序内部的参考数据。这些线程都跟一个hash表打交道，工作线程只读，背景线程读写，必然要用到一些同步机制，防止数据损坏。这里的示例代码用std::map代替hash表，意思是一样的：

typedef map<string, vector<pair<string, int> > > Map;

map 的 key 是用户名，value 是一个vector，里边存的是不同stock的最小交易间隔，vector已经排好序，可以用二分查找。

我们的系统要求工作线程的延迟尽可能小，可以容忍背景线程的延迟略大。一天之内，背景线程对数据更新的次数屈指可数，最多一小时一次，更新的数据来自于网络，所以对更新的及时性不敏感。Map的数据量也不大，大约一千多条数据。

最简单的同步办法，用读写锁，工作线程加读锁，背景线程加写锁。但是读写锁的开销比普通mutex要大，如果工作线程能用最普通的非重入Mutex实现同步，就不必用读写锁，性能较高。我们借助shared_ptr实现了这一点：

class Mutex;
class MutexLockGuard;

class CustomerData
{
public:
CustomerData() : data_(new Map)
{ }

~CustomerData();

int query(const string& customer, const string& stock) const
{
    MapPtr data = getData();
    // data 一旦拿到，就不再需要锁了。取数据的时候只有getData()内部有锁，多线程并发读的性能很好。

    // 假设用户肯定存在
    const EntryList& entries = (*data)[customer];
    return findEntry(entries, stock);
}

void update(const string& customer, const EntryList& entries );

private:
typedef vector<string, int> EntryList;
typedef map<string, EntryList> Map;
typedef tr1::shared_ptr<Map> MapPtr;

static int findEntry(const EntryList& entries, const string& key) const
{ /* 用 lower_bound 在 entries 里找 key */ }

MapPtr getData() const
{
    MutexLockGuard lock(dataMutex_);
    return data_;
}

MapPtr data_;
mutable Mutex dataMutex_;
};

关键看CustomerData::update()怎么写。既然要更新数据，那肯定得加锁，如果这时候其他线程正在读，那么不能在原来的数据上修改，得创建一个副本，在副本上修改，修改完了再替换。如果没有用户在读，那么就能直接修改，节约一次拷贝。

void CustomerData::update(const string& customer, const EntryList& entries )
{
MutexLockGuard lock(dataMutex_);
if (!data_.unique())
{
    MapPtr newData(new Map(*data_));
    data_.swap(newData);
}
assert(data_.unique());
(*data_)[customer] = entries;
}

注意其中用了shared_ptr::unique()来判断是不是有人在读，如果有人在读，那么我们不能直接修改，因为query()并没有全程加锁，只在getData()内部有锁。shared_ptr::swap()把data_替换为新副本，而且我们还在锁里，不会有别的线程来读，可以放心地更新。

据我们测试，大多数情况下更新都是在原来数据上进行的，拷贝的比例还不到1%，很高效。更准确的说，这不是copy-on-write，而是copy-on-other-reading。

我们将来可能会采用无锁数据结构，不过目前这个实现已经非常好，满足我们的要求。

lm_y

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
copy_on_write技术

1. std::string中的COW技术（转自：http://blog.csdn.net/haoel/article/details/24058）1、概念 Scott Meyers在《More Effective C++》中举了个例子，不知你是否还记得？在你还在上学的时候，你的父母要你不要看电视，而去复习功课，于是你把自己关在房间里，做出一副正在复习功课的样子，其实你在...
复制链接

扫一扫