HDU 4920 Matrix multiplication

题意:很简单,给出两个矩阵,求出两个矩阵的乘积。但是矩阵最大是800*800

思路:n^3的暴力可过,但是要有优美的姿势。就是把优化进行到底。

第一版:很自然的写了一个矩阵的结构体,把大小开到800*800。结果就RE了,原因是STACK_OVER_FLOW,栈溢出!!

代码如下:

#include <cstdio>
#include <cstring>
#include <vector>
#include <cctype>

using namespace std;

template<class T>
inline bool read(T &n)
{
    T signal = 1,x = 0;
    char ch = getchar();
    while((ch <'0' || ch >'9') && ch != EOF && ch != '-')
        ch = getchar();
    if(ch == EOF)  return false;
    if(ch == '-')  ch = getchar(), signal = -1;
    while(ch <='9' && ch >='0'){
        x *= 10;
        x += ch -'0';
        ch = getchar();
    }
    n = x * signal;
    return true;
}
template<class T>
inline void write(T n)
{
    if(n < 0)
        putchar('-'), n = -n;
    int len = 0, num[20];
    while(n)
        num[len++] = n % 10, n /= 10;
    if(len == 0)
        num[len++] = 0;
    while(len--)
        putchar(num[len]+'0');
}


const int  MOD = 3;
int n;

struct Matrix{
    static const int MAXN = 800;
    int column,row;
    int a[MAXN][MAXN];
    Matrix(int m=0, int n=0):column(m),row(n)
    {memset(a,0,sizeof(a));}

    Matrix operator * (const Matrix & B) const{
        Matrix C(row, B.column);
        for(int k = 0; k < column; ++k)
            for(int i = 0 ; i < C.row; ++i)
                for(int j = 0; j <C.column;++j)
                C.a[i][j] = (C.a[i][j] + a[i][k] * B.a[k][j] ) % MOD;
        return C;
    }
};

Matrix A,B;

int main(void)
{
    freopen("input.txt","r",stdin);
    while(read(n)){
        A.column = B.column = A.row = B.row = n;
       // printf("%d %d %d %d\n",A.column , B.column , A.row , B.row);
        for(int i = 0 ; i < A.row; ++i)
            for(int j = 0 ; j < A.column; ++j)
                read(A.a[i][j]),A.a[i][j] %= MOD;
        for(int i = 0 ; i < B .row; ++i)
            for(int j = 0; j < B.column; ++j)
                read(B.a[i][j]),B.a[i][j] %= MOD;
        A = A * B;
        for(int i = 0 ; i < A.row; ++i)
            for(int j = 0; j < A.column; ++j)
                write(A.a[i][j]),putchar(j == A.column - 1?'\n':' ');
    }
    return 0;
}

第二版本:看来要手动扩栈了,C++走起。终于不是RE了,变成了TLE

#include <cstdio>
#include <cstring>
#include <vector>
#include <cctype>
#pragma comment(linker, "/STACK:10240000000,10240000000")//手动扩栈命令,只有C++可用

using namespace std;

template<class T>
inline bool read(T &n)
{
	T signal = 1, x = 0;
	char ch = getchar();
	while ((ch <'0' || ch >'9') && ch != EOF && ch != '-')
		ch = getchar();
	if (ch == EOF)  return false;
	if (ch == '-')  ch = getchar(), signal = -1;
	while (ch <= '9' && ch >= '0'){
		x *= 10;
		x += ch - '0';
		ch = getchar();
	}
	n = x * signal;
	return true;
}
template<class T>
inline void write(T n)
{
	if (n < 0)
		putchar('-'), n = -n;
	int len = 0, num[20];
	while (n)
		num[len++] = n % 10, n /= 10;
	if (len == 0)
		num[len++] = 0;
	while (len--)
		putchar(num[len] + '0');
}


const int  MOD = 3;
int n;

struct Matrix{
	static const int MAXN = 900;
	int column, row;
	int a[MAXN][MAXN];
	Matrix(int m = 0, int n = 0) :column(m), row(n)
	{
		memset(a, 0, sizeof(a));
	}

	Matrix operator * (const Matrix & B) const{
		Matrix C(row, B.column);
		for (int i = 0; i < C.row; ++i)
			for (int k = 0; k < column; ++k)
				for (int j = 0; j < C.column; ++j)
					C.a[i][j] = (C.a[i][j]+ a[i][k] * B.a[k][j]) % MOD;
		return C;
	}
};

Matrix A, B;

int main(void)
{
	//freopen("input.txt", "r", stdin);
	while (read(n)){
		A.column = B.column = A.row = B.row = n;
		// printf("%d %d %d %d\n",A.column , B.column , A.row , B.row);
		for (int i = 0; i < A.row; ++i)
			for (int j = 0; j < A.column; ++j)
				read(A.a[i][j]), A.a[i][j] %= MOD;
		for (int i = 0; i < B.row; ++i)
			for (int j = 0; j < B.column; ++j)
				read(B.a[i][j]), B.a[i][j] %= MOD;
		A = A * B;
		for (int i = 0; i < A.row; ++i)
			for (int j = 0; j < A.column; ++j)
				write(A.a[i][j]), putchar(j == A.column - 1 ? '\n' : ' ');
	}
	return 0;
}

或者不用结构体,直接用裸的二维数组去做,就不需要手动扩展。

但是这样依然是TLE,仍然还需要优化。

第三版本:在网上看了资料,才明白,其实矩阵乘法也需要优化。

优化1:只在输入和输出时对每个数取余,在矩阵乘法计算过程中不进行取余运算。在计算机内部,加减乘除和取余所用的时间是不一样的,取余运算在大多数的计算机上是相当耗时的一个操作,所以我们要尽量避免取余运算的发生。第一步优化就是在矩阵乘法求和时,因为题目中首先对原来的A,B矩阵取余,得到的是每个元素将会变成0,1,2,所以即使很多数的和也不会超过int的范围。所以我们可以直接累加,在最后输出结果时,再对结果取余,从而减少取余运算的数目。

优化2:改变循环的次序,将对k的循环放到第二层,将j的循环放到第三层。原因:C/C++语言中,二维或者多维数组其实也是线性储存的。所以对于高维数组的访问,相比于从前一行到后一行的跳跃式的数据访问(指针的跳跃前进),从前往后访问数数据(指针一步一步前进)的速度要快。同时,在计算和的时候,a[i][k]是一个不变量,更好的利用了cpu里面的cache,提高命中率,加快访问速度,从而加速计算。

优化3:当某个数是0时,不需要再进行下面的计算。

最后的代码如下:

#include <cstdio>
#include <cstring>
#include <vector>
#include <cctype>

using namespace std;

template<class T>
inline bool read(T &n)
{
    T signal = 1,x = 0;
    char ch = getchar();
    while((ch <'0' || ch >'9') && ch != EOF && ch != '-')
        ch = getchar();
    if(ch == EOF)  return false;
    if(ch == '-')  ch = getchar(), signal = -1;
    while(ch <='9' && ch >='0'){
        x *= 10;
        x += ch -'0';
        ch = getchar();
    }
    n = x * signal;
    return true;
}
template<class T>
inline void write(T n)
{
    if(n < 0)
        putchar('-'), n = -n;
    int len = 0, num[20];
    while(n)
        num[len++] = n % 10, n /= 10;
    if(len == 0)
        num[len++] = 0;
    while(len--)
        putchar(num[len]+'0');
}

const int MAXN = 805;
int a[MAXN][MAXN], b[MAXN][MAXN], ans[MAXN][MAXN];
int N;

int main()
{
    //freopen("input.txt","r",stdin);
    while(read(N)){
        for(int i = 0 ; i < N; ++i)
            for(int j = 0; j < N; ++j)
                read(a[i][j]),a[i][j] %= 3;
        for(int i = 0 ; i < N; ++i)
            for(int j = 0; j < N; ++j)
                read(b[i][j]),b[i][j] %= 3;
        memset(ans,0,sizeof(ans));
        for(int i = 0 ; i < N; ++i)
            for(int k = 0; k < N; ++k)
                if(a[i][k] == 0) continue;
                else for(int j = 0; j < N; ++j)
                    ans[i][j] += a[i][k]*b[k][j];
        for(int i = 0 ; i < N; ++i)
            for(int j = 0 ; j < N; ++j)
                write(ans[i][j]%3),putchar(j == N-1?'\n':' ');
    }
    return 0;
}


最后把一些东西总结一下吧:

1.c++对scanf,printf进行了优化,使其输入输出的速度快于G++的scanf,printf。而G++对字符读入getchar,putchar进行了优化,所以可以逐个字符的读入去读取数字,但这个方法的速度非常快,上述方法在c++里没有效果。

2.对于规模非常大的数组,最好还是不用结构体封装,直接用裸的数组去完成计算。

3.C++可以手动扩栈,命令如上。

4.硬件对代码的实现也会极大的影响程序的性能。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值