简介
linux读写文件操作有fprintf/fscanf、write/read、mmap。区别如下
类型 | 头文件 | 标准IO缓冲区 | 用户缓冲区 | 内核缓冲区 |
---|---|---|---|---|
fprintf/fscanf | <stdio.h> | √ | √ | √ |
write/read | <unistd.h> | X | √ | √ |
mmap | <sys/mman.h> | X | X | √ |
使用方法
使用data.txt
作为输入文件,result.txt
作为输出的目标文件。输入文件中存在一些数字,下面将分别使用这三种方法将输入文件中的数字输出目标文件中。
fprintf/fscanf的使用
#include <stdio.h>
int main()
{
const char* inputFile = "data.txt";
const char* outputFile = "result.txt";
FILE *input = fopen(inputFile, "r");
FILE *output = fopen(outputFile, "w");
int temp;
while (fscanf(input, "%d", &temp) != EOF) {
fprintf(output, "%d ", temp);
}
fclose(input);
fclose(output);
return 0;
}
write/read 的使用
#include <fcntl.h>
#include <unistd.h>
#include <stdio.h>
#include <ctype.h>
#include <stdlib.h>
#define DATA_LEN 1024
int main()
{
const char* inputFile = "/home/ubuntu16/data.txt";
const char* outputFile = "/home/ubuntu16/result.txt";
// 初始化输入
int data=open(inputFile,O_RDONLY);
// 初始化输出
int result=open(outputFile, O_RDWR | O_CREAT | O_TRUNC,0666);
int num=0;
char* input=(char*)malloc(DATA_LEN);
char* output=(char*)malloc(DATA_LEN);
int input_num=read(data, input, DATA_LEN);
input[input_num]=EOF;
char* input_ptr=input;
char* output_ptr=output;
while (*input_ptr != EOF) {
//读取数据
while (isdigit(*input_ptr)) {
num = 10 * num + *input_ptr - '0';
input_ptr++;
}
//输出数据
sprintf(output_ptr, "%d ", num);
while(isdigit(*output_ptr)){
output_ptr++;
}
//更新
num=0;
while (!isdigit(*input_ptr) && *input_ptr != EOF) {
input_ptr++;
}
output_ptr++;
}
long len=output_ptr-output;//结束时尾指针减去头指针,即为输入字符长度
write(result, output, len);
close(data);
close(result);
return 0;
}
mmap的使用
#include <sys/mman.h>
#include <fcntl.h>
#include <unistd.h>
#include <stdio.h>
#include <ctype.h>
#include <stdlib.h>
#include <string.h>
#define OUTPUT_FILE_LEN 1024
int main()
{
const char* inputFile = "/home/ubuntu16/data.txt";
const char* outputFile = "/home/ubuntu16/result.txt";
// 初始化输入
int data=open(inputFile,O_RDONLY);
long len = lseek(data, 0, SEEK_END);
char* input = (char *) mmap( NULL, len ,PROT_READ, MAP_PRIVATE, data, 0 );
// 初始化输出
int result=open(outputFile, O_RDWR | O_CREAT | O_TRUNC,0666);
char* output = (char *) mmap( NULL, OUTPUT_FILE_LEN ,PROT_WRITE, MAP_SHARED, result, 0 );
//检查mmap
if (input == MAP_FAILED || output == MAP_FAILED){
perror("mmap error");
_exit(1);
}
int num=0;
char* input_ptr=input;
char* temp_mem=(char*)malloc(OUTPUT_FILE_LEN);
char* output_ptr=temp_mem;
while (*input_ptr != EOF) {
//读取数据
while (isdigit(*input_ptr)) {
num = 10 * num + *input_ptr - '0';
input_ptr++;
}
//输出数据
sprintf(output_ptr, "%d ", num);
while(isdigit(*output_ptr)){
output_ptr++;
}
//更新
num=0;
while (!isdigit(*input_ptr) && *input_ptr != EOF) {
input_ptr++;
}
output_ptr++;
}
len=output_ptr-temp_mem;//结束时尾指针减去头指针,即为输入字符长度
ftruncate(result,len);//设置输出文件长度
memcpy(output,temp_mem,len);
munmap(output,len);//mmap输出到磁盘文件
close(data);
close(result);
return 0;
}
部分函数API
open
/**
*
* @param pathname 文件的名字及其路径
* @param flags O_CREAT : 如没有没有文件,那么创建新的文件
O_APPEND :原来有内容的话,则会自动的保留文件的内容,自动向下读写;
O_TRUNC :文件存在,有内容,那么清空文件的内容;
O_RDONLY : 只读方式打开
O_WRONLY : 只写方式打开
O_RDWR : 读写方式打开
* @param mode 没有文件的时候,建立一个新的文件的权限
* @return 成功返回文件的描述符 失败返回-1
*/
int open (const char * pathname, int flags,mode_t mode);
read
/**
* 读文件
* @param fd 文件描述符
* @param buf 被读的内容
* @param count 被读的字节数
* @return 成功返回读的字节数;失败返回-1
*/
ssize_t read(int fd, void * buf ,size_t count);
write
/**
* 向文件写
* @param fd 文件描述符
* @param buf 被写的内容
* @param count 被读的字节数
* @return 成功返回写的字节数;失败返回-1
*/
ssize_t write(int fd ,const void *buf, size_t count);
lseek
/**
* 文件定位函数
* @param fd 文件描述符
* @param offset 指针偏移,为负的时候往前调,为正的时,往后调
* @param whence SEEK_SET 放在文件的头;
SEEK_END 放在文件尾;
SEEK_END 放在当前的位置;
* @return 当前的指针到文件的开始地方的有多少的字节;出错 -1
*/
int lseek(int fd ,offset_t offset,int whence);
mmap
/**
* mmap
* @param start 映射区的开始地址。如果设置为0,那么Linux会自动挑选合适的起始地址。
* @param length 映射区的长度。
* @param prot 期望的内存保护标志,不能与文件的打开模式冲突。是以下的某个值,可以通过or运算合理地组合在一起
PROT_EXEC //页内容可以被执行
PROT_READ //页内容可以被读取
PROT_WRITE //页可以被写入
PROT_NONE //页不可访问
* @param flags 指定映射对象的类型,映射选项和映射页是否可以共享。它的值可以是一个或者多个以下位的组合体
MAP_FIXED //使用指定的映射起始地址,如果由start和len参数指定的内存区重叠于现存的映射空间,重叠部分将会被丢弃。如果指定的起始地址不可用,操作将会失败。并且起始地址必须落在页的边界上。
MAP_SHARED //与其它所有映射这个对象的进程共享映射空间。对共享区的写入,相当于输出到文件。直到msync()或者munmap()被调用,文件实际上不会被更新。
MAP_PRIVATE //建立一个写入时拷贝的私有映射。内存区域的写入不会影响到原文件。这个标志和以上标志是互斥的,只能使用其中一个。
MAP_DENYWRITE //这个标志被忽略。
MAP_EXECUTABLE //同上
MAP_NORESERVE //不要为这个映射保留交换空间。当交换空间被保留,对映射区修改的可能会得到保证。当交换空间不被保留,同时内存不足,对映射区的修改会引起段违例信号。
MAP_LOCKED //锁定映射区的页面,从而防止页面被交换出内存。
MAP_GROWSDOWN //用于堆栈,告诉内核VM系统,映射区可以向下扩展。
MAP_ANONYMOUS //匿名映射,映射区不与任何文件关联。
MAP_ANON //MAP_ANONYMOUS的别称,不再被使用。
MAP_FILE //兼容标志,被忽略。
MAP_32BIT //将映射区放在进程地址空间的低2GB,MAP_FIXED指定时会被忽略。当前这个标志只在x86-64平台上得到支持。
MAP_POPULATE //为文件映射通过预读的方式准备好页表。随后对映射区的访问不会被页违例阻塞。
MAP_NONBLOCK //仅和MAP_POPULATE一起使用时才有意义。不执行预读,只为已存在于内存中的页面建立页表入口。
* @param fd 有效的文件描述词。如果MAP_ANONYMOUS被设定,为了兼容问题,其值应为-1。
* @param offset 被映射对象内容的起点。
* @return 成功执行时,mmap()返回被映射区的指针 失败时,mmap()返回MAP_FAILED[其值为(void *)-1]
* errno被设为以下的某个值
EACCES:访问出错
EAGAIN:文件已被锁定,或者太多的内存已被锁定
EBADF:fd不是有效的文件描述词
EINVAL:一个或者多个参数无效
ENFILE:已达到系统对打开文件的限制
ENODEV:指定文件所在的文件系统不支持内存映射
ENOMEM:内存不足,或者进程已超出最大内存映射数量
EPERM:权能不足,操作不允许
ETXTBSY:已写的方式打开文件,同时指定MAP_DENYWRITE标志
SIGSEGV:试着向只读区写入
SIGBUS:试着访问不属于进程的内存区
*/
void *mmap(void *start, size_t length, int prot, int flags,int fd, off_t offset);
munmap
/**
* 将内存的mmap内容同步到磁盘
* @param start 映射区的开始地址。
* @param length 映射区的长度。
* @return 成功返回0,失败返回-1
*/
int munmap(void *start, size_t length);
参考网站
linux不带缓存的文件操作
从fread和mmap谈C++读文件的性能
C++ mmap/munmap
linux中mmap与read/write操作文件的区别
【Linux学习笔记】标准IO缓冲:行缓冲、全缓冲、无缓冲
使用mmap在内存中读写文件
Linux 改变文件大小的方法