Go源码实现使用多线程并发下载大文件的功能

摘要:Go语言编码实现了使用多线程并发下载文件的功能。

1. 代码流程介绍

1. 获取系统的CPU核心数量,并将其作为线程数的参考值,并打印出来。
2. 定义要下载的文件的URL、线程数和输出文件名。
3. 使用`getFileSize()`函数获取文件大小,并打印出来。
4. 根据文件大小和线程数计算文件块大小,如果是最后一次线程的结尾设置为文件结尾,确保文件下载的完整性。
5. 创建一个等待组(`sync.WaitGroup`),用于确保所有下载完成后再合并文件。
6. 创建一个通道(`chunkPaths`),用于接收下载完成的文件块路径。
7. 启动多个goroutine并发下载文件块,每个goroutine负责下载指定范围的文件块。
8. 每个goroutine使用`downloadChunk()`函数下载文件块,并将下载完成的文件块路径发送到通道。
9. 等待所有下载完成,然后关闭通道,表示所有文件块都已下载完成。
10. 创建一个输出文件。
11. 使用`mergeChunk()`函数将下载的文件块合并到输出文件中,并在合并过程中打印合并成功或失败的信息。
12. 在合并完成后,删除临时的文件块。
13. 打印文件下载完成的消息。

源码通过并发下载文件块,利用多线程来加快文件下载的速度。每个线程负责下载文件的一个部分,下载完成后将文件块合并到最终的输出文件中。通过合理设置线程数,可以充分利用可用的CPU资源,提高下载效率。

请注意,代码中使用了`http`和`os`包来进行文件下载和操作,需要保证网络连接正常,并且有足够的权限来创建和删除文件。

2. Go完整源码

package main

import (
	"fmt"
	"io"
	"net/http"
	"os"
	"runtime"
	"sync"
)

const (
	fileURL = "http://example.com/large-file.zip" // 要下载的文件URL
	// threads    = 5                                                                                                // 并发下载的线程数
	outputFile = "output.zip" // 下载完成后的输出文件名
)

func main() {

	// CPU数量作为线程数量
    numCPU := runtime.NumCPU()
	fmt.Println("CPU核心数量:", numCPU)
	threads := numCPU
	fmt.Println("多线程数量:", threads)
	fmt.Println("开始下载文件...")

	// 获取文件大小
	fileSize, err := getFileSize(fileURL)
	if err != nil {
		fmt.Println("无法获取文件大小:", err)
		return
	}
	fmt.Println("文件大小:", fileSize, "bytes")

	// 计算文件块大小
	chunkSize := fileSize / int64(threads)

	// 创建等待组,确保所有下载完成后再合并文件
	var wg sync.WaitGroup
	wg.Add(threads)

	// 创建一个通道用于接收下载完成的文件块路径
	chunkPaths := make(chan string, threads)

	// 启动多个 goroutine 并发下载文件块
	for i := 0; i < threads; i++ {
		go func(index int) {
			defer wg.Done()

			start := int64(index) * chunkSize
			end := start + chunkSize - 1
			// 如果是最后一次线程的结尾设置为文件结尾,确保文件下载的完整性

			if index == threads-1 {
				end = fileSize - 1
			}

			fmt.Printf("线程 %d 开始下载:%d-%d\n", index, start, end)
			chunkPath, err := downloadChunk(fileURL, start, end)
			if err != nil {
				fmt.Printf("线程 %d 下载失败:%v\n", index, err)
			} else {
				fmt.Printf("线程 %d 下载完成:%d-%d\n", index, start, end)
				chunkPaths <- chunkPath // 将下载完成的文件块路径发送到通道
			}
		}(i)
	}

	// 等待所有下载完成
	wg.Wait()
	close(chunkPaths) // 关闭通道,表示所有文件块都已下载完成

	// 创建一个输出文件
	output, err := os.Create(outputFile)
	if err != nil {
		fmt.Println("无法创建输出文件:", err)
		return
	}
	defer output.Close()

	// 合并下载的文件块到输出文件
	for chunkPath := range chunkPaths {
		fmt.Println("合并文件块:", chunkPath)
		err := mergeChunk(chunkPath, output)
		if err != nil {
			fmt.Printf("合并文件块失败:%v\n", err)
		} else {
			fmt.Printf("合并文件块成功:%s\n", chunkPath)
		}

		// 删除临时文件块
		err = os.Remove(chunkPath)
		if err != nil {
			fmt.Printf("删除文件块失败:%v\n", err)
		}
	}

	fmt.Println("文件下载完成。")
}

// 获取文件大小
func getFileSize(url string) (int64, error) {
	resp, err := http.Head(url)
	if err != nil {
		return 0, err
	}
	defer resp.Body.Close()

	if resp.StatusCode != http.StatusOK {
		return 0, fmt.Errorf("服务器返回错误: %v", resp.Status)
	}

	return resp.ContentLength, nil
}

// 下载文件块
func downloadChunk(url string, start, end int64) (string, error) {
	req, err := http.NewRequest("GET", url, nil)
	if err != nil {
		return "", err
	}
	req.Header.Set("Range", fmt.Sprintf("bytes=%d-%d", start, end))

	resp, err := http.DefaultClient.Do(req)
	if err != nil {
		return "", err
	}
	defer resp.Body.Close()

	if resp.StatusCode != http.StatusPartialContent {
		return "", fmt.Errorf("服务器不支持分块下载:%v", resp.Status)
	}

	// 创建一个临时文件用于保存下载的文件块
	chunkPath := fmt.Sprintf("chunk_%d_%d.tmp", start, end)
	chunkFile, err := os.Create(chunkPath)
	if err != nil {
		return "", err
	}
	defer chunkFile.Close()

	_, err = io.Copy(chunkFile, resp.Body)
	if err != nil {
		return "", err
	}

	return chunkPath, nil
}

// 合并文件块
func mergeChunk(chunkPath string, output *os.File) error {
	chunkFile, err := os.Open(chunkPath)
	if err != nil {
		return err
	}
	defer chunkFile.Close()

	_, err = io.Copy(output, chunkFile)
	if err != nil {
		return err
	}

	return nil
}

3. 执行结果

> go run .\largefile_download_goroutine.go
CPU核心数量: 8
多线程数量: 8
开始下载文件...
文件大小: 28057414 bytes
线程 7 开始下载:24550232-28057413
线程 1 开始下载:3507176-7014351
线程 0 开始下载:0-3507175
线程 4 开始下载:14028704-17535879
线程 3 开始下载:10521528-14028703
线程 5 开始下载:17535880-21043055
线程 6 开始下载:21043056-24550231
线程 2 开始下载:7014352-10521527
线程 0 下载完成:0-3507175
线程 7 下载完成:24550232-28057413
线程 3 下载完成:10521528-14028703
线程 1 下载完成:3507176-7014351
线程 2 下载完成:7014352-10521527
线程 4 下载完成:14028704-17535879
线程 6 下载完成:21043056-24550231
线程 5 下载完成:17535880-21043055
合并文件块: chunk_0_3507175.tmp
合并文件块成功:chunk_0_3507175.tmp
合并文件块: chunk_24550232_28057413.tmp
合并文件块成功:chunk_24550232_28057413.tmp
合并文件块: chunk_10521528_14028703.tmp
合并文件块成功:chunk_10521528_14028703.tmp
合并文件块: chunk_3507176_7014351.tmp
合并文件块成功:chunk_3507176_7014351.tmp
合并文件块: chunk_7014352_10521527.tmp
合并文件块成功:chunk_7014352_10521527.tmp
合并文件块: chunk_14028704_17535879.tmp
合并文件块成功:chunk_14028704_17535879.tmp
合并文件块: chunk_21043056_24550231.tmp
合并文件块成功:chunk_21043056_24550231.tmp
合并文件块: chunk_17535880_21043055.tmp
合并文件块成功:chunk_17535880_21043055.tmp
文件下载完成。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
LiteGo:「迷你」的Android异步并发类库LiteGo是一款基于Java语言的「异步并发类库」,它的核心是一枚「迷你」并发器,它可以自由地设置同一时段的最大「并发」数量,等待「排队」线程数量,还可以设置「排队策略」和「超载策略」。 LiteGo可以直接投入Runnable、Callable、FutureTask 等类型的实现来运行一个任务,它的核心组件是「SmartExecutor」,它可以用来作为「App」内支持异步并发的唯一组件。 在一个App中「SmartExecutor」可以有多个实例,每个实例都有完全的「独立性」,比如独立的「核心并发」、「排队等待」指标,独立的「运行调度和满载处理」策略,但所有实例「共享一个线程池」。 这种机制既满足不同模块对线程控制和任务调度的独立需求,又共享一个池资源来节省开销,最大程度上节约资源复用线程,帮助提升性能。LiteGo 背景关于异步、并发的现状和问题线程的创建代价比较大,尤其在短时间需要大量并发的场景下问题突出,所以Java有了线程池来管理和复用线程。一般来讲,一个App一个线程池足矣!也不需要自己完全重新实现,充分利用Doug Lea(对java贡献最大的个人)主写的concurrent库。 现在框架众多,有的独立精悍,也有集大成者,建议阅读源码,最好知根知底,很可能在他们有自己的线程池,这个时候如果你不注意管理线程那就雪上加霜咯。所以,鉴于此我写了这个类库,来统一线程池,明确和控制管理策略。LiteGo 理念清闲时线程不要多持,最好不要超过CPU数量,根据具体应用类型和场景来决策。瞬间并发不要过多,最好保持在CPU数量左右,或者可以多几个问题并不大。注意控制排队和满载策略,大量并发瞬间起来的场景下也能轻松应对。同时并发的线程数量不要过多,最好保持在CPU核数左右,过多了CPU时间片过多的轮转分配造成吞吐量降低,过少了不能充分利用CPU,并发数可以适当比CPU核数多一点没问题。还有个小小的个人建议,业务上合理调度任务,优化业务逻辑,从自己做起,不胡搞乱搞咯。LiteGo 特性可定义核心并发线程数,即同一时间并发的请求数量。可定义等待排队线程数,即超出核心并发数后可排队请求数量。可定义等待队列进入执行状态的策略:先来先执行,后来先执行。可定义等待队列满载后处理新请求的策略:抛弃队列中最新的任务抛弃队列中最旧的任务抛弃当前新任务直接执行(阻塞当前线程)抛出异常(中断当前线程)LiteGo 使用初始化:// 智能并发调度控制器:设置[最大并发数],和[等待队列]大小 SmartExecutor smallExecutor = new SmartExecutor(); // set temporary parameter just for test // 一下参数设置仅用来测试,具体设置看实际情况。 // number of concurrent threads at the same time, recommended core size is CPU count // 开发者均衡性能和业务场景,自己调整同一时段的最大并发数量smallExecutor.setCoreSize(2); // adjust maximum number of waiting queue size by yourself or based on phone performance // 开发者均衡性能和业务场景,自己调整最大排队线程数量 smallExecutor.setQueueSize(2); // 任务数量超出[最大并发数]后,自动进入[等待队列],等待当前执行任务完成后按策略进入执行状态:后进先执行。 smallExecutor.setSchedulePolicy(SchedulePolicy.LastInFirstRun); // 后续添加新任务数量超出[等待队列]大小时,执行过载策略:抛弃队列内最旧任务。 smallExecutor.setOverloadPolicy(OverloadPolicy.DiscardOldTaskInQueue);上述代码设计了一个可同时并发「2」个线程,并发满载后等待队列可容纳「2」个线程排队,排队队列中后进的任务先执行,等待队列装满后新任务来到将抛弃队列中最老的任务。测试多个线程并发的情况:// 一次投入 4 个任务for (int i = 0; i < 4; i ) {     final int j = i;     smallExecutor.execute(new Runnable() {             @Override         public void run() {                     HttpLog.i(TAG, " TASK "   j   " is running now ----------->");                      SystemClock.sleep(j * 200);         }     }); }// 再投入1个可能需要取消的任务 Future future = smallExecutor.submit(new Runnable() {    @Override     public void run() {             HttpLog.i(TAG, " TASK 4 will be canceled... ------------>");              SystemClock.sleep(1000);     } }); // 合适的时机取消此任务 future.cancel(false);上述代码,一次依次投入 0、1、2、3、4 五个任务,注意4任务是最后投入的,返回一个Future对象。根据设置,0、1会立即执行,执行满载后2、3进入排队队列,排队满载后独立投入的任务4来到,队列中最老的任务2被移除,队列中为3、4 。因为4随后被取消执行,所以最后输出:TASK 0 is running now -----------> TASK 1 is running now -----------> TASK 3 is running now -----------> 标签:Android
### 回答1: Python多线程并发是指在一个进程中同时运行多个线程,以提高程序的执行效率和响应速度。Python中的多线程是基于操作系统的线程实现的,一个Python线程会对应一个操作系统线程。Python提供了多个模块来支持多线程编程,其中最常用的是`threading`模块。 使用`threading`模块创建一个线程非常简单,只需要定义一个函数作为线程的执行体,然后创建一个`Thread`对象并调用它的`start()`方法即可。下面是一个简单的示例代码: ```python import threading def worker(): print('Worker thread is running') t = threading.Thread(target=worker) t.start() ``` 这个程序创建了一个名为`worker`的函数作为线程的执行体,然后创建了一个`Thread`对象`t`,并调用了`t.start()`方法启动线程。当线程启动后,它会自动调用`worker`函数执行线程任务。 除了`Thread`类之外,Python还提供了一些同步原语,如`Lock`、`Event`、`Condition`等,可以用来协调多个线程之间的操作。使用这些同步原语可以避免多个线程同时访问共享资源导致的竞态条件和数据不一致等问题。 在使用多线程时,需要注意线程安全问题。多个线程同时对同一个共享变量进行读写操作时,可能会产生数据不一致、竞态条件等问题。为了避免这些问题,可以使用一些同步机制来保护共享变量的访问,如使用`Lock`来保证同一时刻只有一个线程能够访问共享变量。 ### 回答2: Python多线程并发是指在Python程序中使用多个线程同时执行任务的一种方式。在传统的单线程程序中,任务是顺序执行的,即一个任务执行完毕后,才能执行下一个任务。而在多线程并发中,多个任务可以同时执行,不需要等待前一个任务执行完毕才能执行下一个任务。 Python的多线程并发是通过threading模块来实现的。通过创建多个线程对象,每个线程对象执行一个任务,可以实现多线程并发多线程并发可以提高程序的执行效率,尤其在处理一些耗时任务时,多线程可以同时执行多个任务,节省了等待时间。 然而,Python的多线程并发也存在一些限制。由于Python的全局解释锁(GIL)机制,每个线程在执行时只能使用一个核心,无法充分利用多核处理器的优势。这就意味着,对于计算密集型的任务,多线程并发可能并不能提高速度。但是对于I/O密集型的任务,如文件读写、网络通信等,多线程并发可以显著提高程序的性能。 在编写多线程并发的程序时,需要注意线程之间的同步问题。多个线程可能会同时访问共享的资源,如果没有正确地进行同步,会引发线程安全问题,如数据竞争、死锁等。在Python中,可以使用锁、条件变量等同步工具来解决这些问题。 总之,多线程并发是一种提高程序性能的方法,可以实现多任务同时执行。但要注意线程安全性和GIL的限制,选择合适的情况下使用多线程并发。 ### 回答3: Python的多线程并发是指在同一时间内,程序中多个线程能够同时运行并执行不同的任务。Python提供了多线程的库,如`threading`,可以通过创建多个线程来实现并发执行。 使用多线程并发有以下几个优点: 1. 提高程序的效率:多线程允许多个任务同时执行,可以充分利用多核处理器的计算能力,以提高程序的效率和响应速度。 2. 提高资源利用率:多线程并发可以有效地利用CPU资源,使其不再空闲,避免因为等待IO操作而浪费时间。 3. 改善用户体验:多线程能够将一些耗时的任务放到后台执行,以提供更好的用户体验,如在图形界面应用中,通过多线程进行网络请求,可以避免阻塞主界面。 4. 实现复杂性:多线程并发可以更容易地实现一些复杂的逻辑,如同时处理多个网络请求、同时获取多个数据源等。 但是,Python中的多线程并发有一些需要注意的地方: 1. 全局解释器锁(GIL):由于GIL的存在,Python中的多线程并不能实现真正的并行执行,因为在同一时间只有一个线程可以执行Python字节码。因此,对于需要CPU密集型的任务,多线程并发并不能显著提升性能。 2. 线程安全问题:多线程并发时,多个线程同时访问共享资源可能引发数据竞争和线程安全问题,需要通过锁(Lock)或其他同步机制来解决。 总的来说,Python的多线程并发在处理IO密集型任务、提高用户体验和利用多核处理器等方面具有优势,但对于CPU密集型任务需要考虑全局解释器锁的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值