内存映射:
内存映射实在大文件处理的时候使用的,其原理是将大文件直接拷贝到内存里面,然后直接访问,这样会比较快,如果文件太大,内存里面装不下,就一部分一部分地加载,读取,操作等等。
直接文件操作:
1:Win32API里面并没有读取一行的函数,因此,要读取一行,只能按照一定的逻辑自己做。因此,效率会比较低:
#include "stdafx.h"
#include <iostream>
#include <windows.h>
#include <locale.h>
const UINT MAXLINELEN = 1024;
wchar_t* UTF8ToUnicode(BYTE* byutf)
{
DWORD dwLen = MultiByteToWideChar(CP_UTF8, 0, (char*)byutf, -1, nullptr, 0);
wchar_t* pwRet = new wchar_t[dwLen];
MultiByteToWideChar(CP_UTF8, 0, (char*)byutf, -1, pwRet, dwLen);
return pwRet;
}
bool ReadLine(const HANDLE hFile, BYTE* wcsBuff, UINT uMaxByte = 1024)
{
bool bReturn = false;
BYTE byTemp;
UINT uindex = 0;
DWORD dwReadLen = 0;
while (ReadFile(hFile, &byTemp, sizeof(BYTE), &dwReadLen, nullptr))
{
if (dwReadLen > 0)
{
if (byTemp == '\n')
{
bReturn = true;
break;
}
else if (uindex < MAXLINELEN)
{
wcsBuff[uindex++] = byTemp;
}
else
break;
}
else
break;
}
return bReturn;
}
int _tmain(int argc, _TCHAR* argv[])
{
setlocale(LC_ALL, "chs");
BYTE byBufer[MAXLINELEN] = { 0 };
HANDLE hFile = CreateFile(L"..\\1.csv", GENERIC_READ, FILE_SHARE_READ, nullptr, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, nullptr);
if (hFile == INVALID_HANDLE_VALUE)
return -1;
wchar_t wcsData[] = L"1990";
DWORD dwline = 0, findedline = 0;
int fpercent = 0;
DWORD ck = GetTickCount();
while (ReadLine(hFile, byBufer, MAXLINELEN))
{
wchar_t* wTemp = UTF8ToUnicode(byBufer);
if (wcsstr(wTemp, wcsData))
{
++findedline;
}
++dwline;
delete wTemp;
memset(byBufer, 0, MAXLINELEN);
if (fpercent != dwline / 20000)
{
fpercent = dwline / 20000;
std::cout << fpercent << " " << findedline << std::endl;
}
}
std::cout << fpercent << " " << findedline << std::endl;
ck = GetTickCount() - ck;
std::cout << std::endl << std::endl << std::endl << ck << std::endl;
system("pause");
CloseHandle(hFile);
return 0;
}
实际上,上面打开的文件是一个300多兆的csv文件,简单表格文件,共计200万行,扫描里面含有1990的行数,经过测试,在我的电脑上运行完毕需要8分钟左右的时间。
2:C语言函数,利用C语言提供的函数,进行扫描,程序如下:
#define _CRT_SECURE_NO_WARNINGS
#include <cstdio>
#include <iostream>
#include <windows.h>
const UINT MAXLINELEN = 1024;
wchar_t* UTF8ToUnicode(BYTE* byutf)
{
DWORD dwLen = MultiByteToWideChar(CP_UTF8, 0, (char*)byutf, -1, nullptr, 0);
wchar_t* pwRet = new wchar_t[dwLen];
MultiByteToWideChar(CP_UTF8, 0, (char*)byutf, -1, pwRet, dwLen);
return pwRet;
}
int main()
{
setlocale(LC_ALL, "chs");
FILE *cFile = fopen("..\\1.csv", "r+");
bool bRet = false;
BYTE* strLine = new BYTE[MAXLINELEN];
wchar_t wcsData[] = L"1990";
DWORD dwline = 0, findedline = 0;
int fpercent = 0;
DWORD ck = GetTickCount();
do
{
if (cFile == NULL)
break;
while (!feof(cFile))
{
fgets((char*)strLine, MAXLINELEN, cFile);
wchar_t *wstr = UTF8ToUnicode(strLine);
if (wcsstr(wstr, wcsData))
{
++findedline;
}
++dwline;
delete wstr;
memset(strLine, 0, MAXLINELEN);
if (fpercent != dwline / 20000)
{
fpercent = dwline / 20000;
std::cout << fpercent << " " << findedline << std::endl;
}
}
bRet = true;
} while (false);
std::cout << fpercent << " " << findedline << std::endl;
ck = GetTickCount() - ck;
std::cout << std::endl << std::endl << std::endl << ck << std::endl;
fclose(cFile);
system("pause");
return 0;
}
事实上,使用C语言的函数,实际上在我的电脑上只费时11秒左右。
位图加载:
1:需要将文件快速加载进内存,我们拿到的是一块指针,并没有任何文件上的属性,不像LoadBitMap,直接拿到的就是BITMAP。2:DIB:bmp格式讲解(具体百度),里面包含了四大部分:
1:BMP文件头:14字节
2:位图信息头:40字节
3:颜色表:
4:位图数据:
3:bmp图分为多少位,目前最多的是24位图,红绿蓝分别8位,在图像识别的时候一般会把颜色去掉,去阈值,二值化
2:位图信息头:40字节
3:颜色表:
4:位图数据:
3:bmp图分为多少位,目前最多的是24位图,红绿蓝分别8位,在图像识别的时候一般会把颜色去掉,去阈值,二值化
4:位图文件头
5:位图信息头
6:通过FileMap可以用来共享数据,其他东西是做不到的,通过文件来共享,速度非常慢。
7:计算机的内存在逻辑上是分离的,在CreateFileMapping的时候,里面的名字之前一直写的nullptr,如果我们命名了,我们就可以使用OpenFileMapping来打开,在另外的进程里面就可以打开这个FileMap的内核对象。这样,两个进程就存在一个共享的区域。这个FileMap的handle不可关闭,一关闭就销毁了。
8:虽然这样可以共享数据,但是也会出现访问冲突,在写数据的时候吗,需要做同步,可以直接做一个Event就好了。
9:用FileMap适用于共享数据,而非用于进程间通讯,他能够用来做进程间通讯,但是完全没必要,我们使用命名管道或者socket都比这个好。
typedef struct tagBITMAPFILEHEADER {
WORD bfType;
DWORD bfSize;
WORD bfReserved1;
WORD bfReserved2;
DWORD bfOffBits;//真实数据开始的地方
} BITMAPFILEHEADER, FAR *LPBITMAPFILEHEADER, *PBITMAPFILEHEADER;
5:位图信息头
typedef struct tagBITMAPINFOHEADER{
DWORD biSize;
LONG biWidth;
LONG biHeight;
WORD biPlanes;
WORD biBitCount;
DWORD biCompression;
DWORD biSizeImage;
LONG biXPelsPerMeter;
LONG biYPelsPerMeter;
DWORD biClrUsed;
DWORD biClrImportant;
} BITMAPINFOHEADER, FAR *LPBITMAPINFOHEADER, *PBITMAPINFOHEADER;
6:通过FileMap可以用来共享数据,其他东西是做不到的,通过文件来共享,速度非常慢。
7:计算机的内存在逻辑上是分离的,在CreateFileMapping的时候,里面的名字之前一直写的nullptr,如果我们命名了,我们就可以使用OpenFileMapping来打开,在另外的进程里面就可以打开这个FileMap的内核对象。这样,两个进程就存在一个共享的区域。这个FileMap的handle不可关闭,一关闭就销毁了。
8:虽然这样可以共享数据,但是也会出现访问冲突,在写数据的时候吗,需要做同步,可以直接做一个Event就好了。
9:用FileMap适用于共享数据,而非用于进程间通讯,他能够用来做进程间通讯,但是完全没必要,我们使用命名管道或者socket都比这个好。