纯C环境下的多线程还是挺让我难受的,毕竟没有Java、Python那么多那么随意了。
首先我这里使用的是#include <pthread.h>
多个线程的等待和结束可以建立一个线程数组,直接上开始,需要注意的是这里的线程创建函数,接收的参数必须为函数指针和参数指针,这意味着必须将线程所涉及的函数封装成一个线程调用函数,所需要的参数封装成一个结构体调用。
void* ThreadNeedVar(void *arg)
{
struct ProcessPacket *var=(struct ProcessPacket *)arg;
complex double **csi=(complex double**)malloc(sizeof(complex double*)*30);
for(int i=0;i<30;i++){
*(csi+i)=(complex double*)malloc(sizeof(complex double)*3);
}
int count=var->count;
for (int i=0; i<30; i++) {
for (int j=0; j<3; j++) {
csi[i][j]=var->retFormBfee.ptrR[i*3+j]+var->retFormBfee.ptrI[i*3+j]*_Complex_I;
}
}
process_packet(var->env,csi,var->aoa_tof,var->count);
for(int i=0;i<30;i++){
free(csi[i]);
}
free(csi);
return ((void *)0);
}
而且必须是一个空类型指针,之后强制指针类型转换,解析这个结构体成员,进行后续操作。
这里我有一个困惑,就是我的主线程其实需要等待所有线程函数执行完毕后,将计算结果汇总成一个数组,执行主线程后续的聚类等操作,而自带的pthread_join其实会阻塞当前线程,只到pthread_join所要求的进程结束后才结束阻塞,从结果上看,虽然我的效果提高了(25组数据从最开始约12秒->使用mkl矩阵运算库,25组约1.4秒->使用多线程pthread_join等待结束25组约0.9秒)。
pthread_t t[NUM_PACKETS];
struct ProcessPacket var[NUM_PACKETS];
// pthread_create(&t2,NULL,print_msg,(void *)"world!\n");
int count;
for(count=0;count<NUM_PACKETS;count++){
var[count].count=count;
var[count].retFormBfee=retFormBfee[count];
var[count].env=env;
var[count].aoa_tof=aoa_tof;
pthread_create(&t[count],NULL,&ThreadNeedVar,&var[count]);
// process_packet(var.env,var.csi,var.aoa_tof,var.count);
}
for(count=0;count<NUM_PACKETS;count++){
pthread_join(t[count],NULL);
}
但是并没有理想效果,在边缘条件下(一组数据开发环境下全部执行完约0.4秒),可以猜想是pthread_join的阻塞等待其实要求线程必须按照顺序结束,其实没有必要,只要全结束就行,所以效率应该可以进一步提高。聚类算法其实耗时不多,预测内存足够的话多组数据的处理时间应该也很接近0.4秒这样。
考虑使用锁,也许是我的数据太少了,竞争环境下效果没有更好,但是更稳定。全局变量lock,每次创建线程前++,结束前--
while (count==NUM_PACKETS) {
if (lock==0)
break;
}
这样子,我再考虑下有没有更好的办法