AllGather和AlltoAll的算子结构分析说明

最新推荐文章于 2025-03-04 19:50:41 发布

源代码分析

最新推荐文章于 2025-03-04 19:50:41 发布

阅读量1.7k

点赞数 4

分类专栏：金融和量化文章标签：网络服务器 linux

本文链接：https://blog.csdn.net/fengidea/article/details/143360647

版权

金融和量化专栏收录该内容

79 篇文章

订阅专栏

AllGather 和 AllToAll 算子的 Ring 与 Pairwise 算法实现分析

在分布式计算和并行处理领域，AllGather 和 AllToAll 是两种常见的通信算子。它们用于在多个进程或节点之间交换和聚合数据。本文将以 AllGather 和 AllToAll 算子为例，介绍 Ring 和 Pairwise 两种算法的实现，并对其具体含义进行分析说明。

1. 算子的定义

1.1 AllGather 算子

AllGather 算子用于将每个参与进程的数据聚合到所有进程中。具体来说，假设有 P 个进程，每个进程拥有一部分数据，执行 AllGather 后，每个进程都将拥有所有进程的数据的集合。

1.2 AllToAll 算子

AllToAll 算子则更加灵活，它允许每个进程向所有其他进程发送不同的数据。因此，执行 AllToAll 后，每个进程将拥有来自所有其他进程的独特数据集合。

2. Ring 算法实现

Ring 算法是一种基于环形拓扑结构的通信算法，适用于实现 AllGather 和 AllToAll 算子。它通过节点之间的轮流传输数据，确保每个节点最终都能接收到所有其他节点的数据。

2.1 Ring 实现的 AllGather 算法

工作原理

拓扑结构：所有参与进程按环形排列，每个进程只有两个邻居：左邻和右邻。
数据传输：每个进程将自己的数据分成 P-1 个部分，分别发送给除自身外的 P-1 个进程。
轮次：共进行 P-1 轮，每轮每个进程接收来自左邻的数据并将其转发给右邻。
聚合数据：经过 P-1 轮后，每个进程收集到了所有其他进程的数据。

实现代码

package communication

import (
	"fmt"
	"net"
	"sync"
)

// RingAllGather 实现 AllGather 算子的 Ring 算法
type RingAllGather struct {
	numProcs int
	rank     int
	data     []byte
	recvData [][]byte
	conn     net.Conn
	mu       sync.Mutex
}

// NewRingAllGather 初始化 RingAllGather 实例
func NewRingAllGather(numProcs, rank int, data []byte, conn net.Conn) *RingAllGather {
	return &RingAllGather{
		numProcs: numProcs,
		rank:     rank,
		data:     data,
		recvData: make([][]byte, numProcs),
		conn:     conn,
	}
}

// Execute 执行 AllGather 操作
func (rag *RingAllGather) Execute() {
	var wg sync.WaitGroup
	wg.Add(rag.numProcs - 1)

	for i := 0; i < rag.numProcs-1; i++ {
		go func(step int) {
			defer wg.Done()
			// 发送数据到右邻
			rag.sendToRight(rag.data)
			// 接收来自左邻的数据
			received := rag.receiveFromLeft()
			// 存储接收到的数据
			rag.mu.Lock()
			rag.recvData[(rag.rank-step-1+rag.numProcs)%rag.numProcs] = received
			rag.mu.Unlock()
		}(i)
	}

	wg.Wait()

	// 聚合所有数据
	aggregatedData := rag.data
	for _, d := range rag.recvData {
		aggregatedData = append(aggregatedData, d...)
	}

	fmt.Printf("Process %d aggregated data: %v\n", rag.rank, aggregatedData)
}

// sendToRight 发送数据到右邻
func (rag *RingAllGather) sendToRight(data []byte) {
	// 假设右邻的连接已建立
	_, err := rag.conn.Write(data)
	if err != nil {
		fmt.Printf("Process %d failed to send data: %v\n", rag.rank, err)
	}
}

// receiveFromLeft 从左邻接收数据
func (rag *RingAllGather) receiveFromLeft() []byte {
	buffer := make([]byte, len(rag.data))
	_, err := rag.conn.Read(buffer)
	if err != nil {
		fmt.Printf("Process %d failed to receive data: %v\n", rag.rank, err)
	}
	return buffer
}

2.2 Ring 实现的 AllToAll 算法

工作原理

拓扑结构：与 AllGather 相同，采用环形拓扑。
数据传输：每个进程拥有与每个其他进程独立的数据。
轮次：共进行 P-1 轮，每轮每个进程发送指定目标的数据部分，并接收来自相邻进程的数据。
交换数据：通过轮次的传输，确保每个进程最终拥有来自所有其他进程的独立数据。

实现代码

package communication

import (
	"fmt"
	"net"
	"sync"
)

// RingAllToAll 实现 AllToAll 算子的 Ring 算法
type RingAllToAll struct {
	numProcs int
	rank     int
	sendData [][]byte
	recvData [][]byte
	conn     net.Conn
	mu       sync.Mutex
}

// NewRingAllToAll 初始化 RingAllToAll 实例
func NewRingAllToAll(numProcs, rank int, sendData [][]byte, conn net.Conn) *RingAllToAll {
	return &RingAllToAll{
		numProcs: numProcs,
		rank:     rank,
		sendData: sendData,
		recvData: make([][]byte, numProcs),
		conn:     conn,
	}
}

// Execute 执行 AllToAll 操作
func (ra2a *RingAllToAll) Execute() {
	var wg sync.WaitGroup
	wg.Add(ra2a.numProcs - 1)

	for i := 0; i < ra2a.numProcs-1; i++ {
		go func(step int) {
			defer wg.Done()
			target := (ra2a.rank + step + 1) % ra2a.numProcs
			// 发送目标数据到右邻
			ra2a.sendToRight(ra2a.sendData[target])
			// 接收来自左邻的目标数据
			received := ra2a.receiveFromLeft()
			ra2a.mu.Lock()
			ra2a.recvData[(ra2a.rank-step-1+ra2a.numProcs)%ra2a.numProcs] = received
			ra2a.mu.Unlock()
		}(i)
	}

	wg.Wait()

	fmt.Printf("Process %d received data: %v\n", ra2a.rank, ra2a.recvData)
}

// sendToRight 发送数据到右邻
func (ra2a *RingAllToAll) sendToRight(data []byte) {
	_, err := ra2a.conn.Write(data)
	if err != nil {
		fmt.Printf("Process %d failed to send data: %v\n", ra2a.rank, err)
	}
}

// receiveFromLeft 从左邻接收数据
func (ra2a *RingAllToAll) receiveFromLeft() []byte {
	// 假设每次发送的数据大小已知
	buffer := make([]byte, len(ra2a.sendData[0]))
	_, err := ra2a.conn.Read(buffer)
	if err != nil {
		fmt.Printf("Process %d failed to receive data: %v\n", ra2a.rank, err)
	}
	return buffer
}

3. Pairwise 算法实现

Pairwise 算法是一种分组交换的通信方法，通过成对进程之间的直接通信来实现数据的传递和聚合。这种方法适用于 AllGather 和 AllToAll 算子的高效实现，尤其在节点数量较大时表现出色。

3.1 Pairwise 实现的 AllGather 算法

工作原理

分组通信：将所有进程分为若干对，每对进程之间进行数据交换。
轮次：共进行 log₂P 轮，每轮每个进程与不同的伙伴进程交换数据。
数据聚合：经过若干轮的数据交换后，每个进程最终拥有所有其他进程的数据集合。

实现代码

package communication

import (
	"fmt"
	"net"
	"sync"
	"math"
)

// PairwiseAllGather 实现 AllGather 算子的 Pairwise 算法
type PairwiseAllGather struct {
	numProcs int
	rank     int
	data     [][]byte
	connMap  map[int]net.Conn
	mu       sync.Mutex
}

// NewPairwiseAllGather 初始化 PairwiseAllGather 实例
func NewPairwiseAllGather(numProcs, rank int, initialData []byte, connMap map[int]net.Conn) *PairwiseAllGather {
	data := make([][]byte, numProcs)
	data[rank] = initialData
	return &PairwiseAllGather{
		numProcs: numProcs,
		rank:     rank,
		data:     data,
		connMap:  connMap,
	}
}

// Execute 执行 AllGather 操作
func (pag *PairwiseAllGather) Execute() {
	numRounds := int(math.Ceil(math.Log2(float64(pag.numProcs))))
	for s := 0; s < numRounds; s++ {
		partner := pag.rank ^ (1 << s)
		if partner < pag.numProcs {
			go pag.exchangeData(partner)
		}
	}
	// 等待所有轮次完成
	// 这里可以使用同步机制，例如 WaitGroup
	// 简化起见，假设所有通信都是同步完成
	pag.aggregateData()
}

// exchangeData 与伙伴进程交换数据
func (pag *PairwiseAllGather) exchangeData(partner int) {
	conn, exists := pag.connMap[partner]
	if !exists {
		fmt.Printf("Process %d 无法连接到伙伴 %d\n", pag.rank, partner)
		return
	}
	// 发送当前数据
	for _, d := range pag.data {
		_, err := conn.Write(d)
		if err != nil {
			fmt.Printf("Process %d 发送数据给 %d 失败: %v\n", pag.rank, partner, err)
			return
		}
	}
	// 接收伙伴的数据
	buffer := make([]byte, 1024) // 假设每次接收的数据大小
	n, err := conn.Read(buffer)
	if err != nil {
		fmt.Printf("Process %d 从 %d 接收数据失败: %v\n", pag.rank, partner, err)
		return
	}
	received := buffer[:n]
	pag.mu.Lock()
	pag.data = append(pag.data, received)
	pag.mu.Unlock()
}

// aggregateData 聚合所有接收到的数据
func (pag *PairwiseAllGather) aggregateData() {
	aggregated := []byte{}
	for _, d := range pag.data {
		aggregated = append(aggregated, d...)
	}
	fmt.Printf("Process %d 聚合后的数据: %v\n", pag.rank, aggregated)
}

3.2 Pairwise 实现的 AllToAll 算法

工作原理

分组通信：每个进程与所有其他进程成对进行数据交换。
轮次：共进行 P-1 轮，每轮每个进程与一个特定的伙伴进程交换数据。
数据分发：通过轮次的数据交换，实现每个进程向所有其他进程发送不同的数据。

实现代码

package communication

import (
	"fmt"
	"net"
	"sync"
	"math"
)

// PairwiseAllToAll 实现 AllToAll 算子的 Pairwise 算法
type PairwiseAllToAll struct {
	numProcs int
	rank     int
	sendData [][]byte
	recvData [][]byte
	connMap  map[int]net.Conn
	mu       sync.Mutex
}

// NewPairwiseAllToAll 初始化 PairwiseAllToAll 实例
func NewPairwiseAllToAll(numProcs, rank int, sendData [][]byte, connMap map[int]net.Conn) *PairwiseAllToAll {
	recvData := make([][]byte, numProcs)
	return &PairwiseAllToAll{
		numProcs: numProcs,
		rank:     rank,
		sendData: sendData,
		recvData: recvData,
		connMap:  connMap,
	}
}

// Execute 执行 AllToAll 操作
func (paat *PairwiseAllToAll) Execute() {
	var wg sync.WaitGroup
	wg.Add(paat.numProcs - 1)

	for i := 0; i < paat.numProcs; i++ {
		if i == paat.rank {
			continue
		}
		go func(dest int) {
			defer wg.Done()
			conn, exists := paat.connMap[dest]
			if !exists {
				fmt.Printf("Process %d 无法连接到目标 %d\n", paat.rank, dest)
				return
			}
			// 发送数据到目标进程
			_, err := conn.Write(paat.sendData[dest])
			if err != nil {
				fmt.Printf("Process %d 发送数据到 %d 失败: %v\n", paat.rank, dest, err)
				return
			}
			// 接收来自目标进程的数据
			buffer := make([]byte, len(paat.sendData[dest]))
			_, err = conn.Read(buffer)
			if err != nil {
				fmt.Printf("Process %d 从 %d 接收数据失败: %v\n", paat.rank, dest, err)
				return
			}
			paat.mu.Lock()
			paat.recvData[dest] = buffer
			paat.mu.Unlock()
		}(i)
	}

	wg.Wait()
	fmt.Printf("Process %d 接收到的数据: %v\n", paat.rank, paat.recvData)
}

4. 分析与说明

4.1 Ring 与 Pairwise 算法的对比

通信模式：
- Ring 算法采用环形拓扑，每个进程与其左右邻居进行数据交换，适用于 AllGather 和 AllToAll 的实现。
- Pairwise 算法则采用点对点通信，每个进程与所有其他进程成对通信，适用于 AllGather 和 AllToAll 的高效实现。
复杂度：
- Ring 算法的通信复杂度较低，适合节点数量较少的场景。
- Pairwise 算法的通信复杂度较高，但在节点数量较大时依然保持高效。
适用场景：
- Ring 算法适用于需要简单实现且节点数量有限的 AllGather 和 AllToAll 操作。
- Pairwise 算法适用于需要高效数据交换且节点数量较多的 AllGather 和 AllToAll 操作。