Python文件操作(txt\xlsx\csv)及os操作

最新推荐文章于 2022-08-26 23:27:49 发布

weixin_34072857

最新推荐文章于 2022-08-26 23:27:49 发布

阅读量391

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/zz27zz/p/7489287.html

版权

一、OS模块

os模块用来直接调用操作系统提供的接口函数，进而操作文件和目录。

1.1 常用路径的方法

sys.path[0] 是指运行main的路径，就是主路径

os.path.dirname(os.path.abspath("__file__")) 当前运行文件的路径

os.path.dirname(__file__) 当前运行文件的路径

os.path.dirname(os.path.realpath(sys.argv[0])) linux系统下表示当前运行文件的路径

os.path.pardir 上一级目录

os.path.join(path,'filename') 组合路径和文件名形成文件路径

sys.path.append()

备注：假设a.py中有表示路径的方式，main.py为主调动模块，当main.py调用a.py时，a.py中表示的路径则应该以main.py为标准而不是以a.py为标准

import os
#当前文件的完整路径名：C:\Python27\Scripts\djangotest\justtest.py

print os.path.dirname(os.path.dirname(__file__)  #获取当前文件所在目录的上级目录C:\Python27\Scripts
print os.path.dirname(__file__)  #获取当前文件所在目录C:\Python27\Scripts\djangotest
print os.getcwd()  #获取当前文件目录 C:\Python27\Scripts\djangotest
print os.path.dirname(r'd:\workspace\R')  #获取指定目录的上级目录d:\workspace

#获取相对路径
print os.path.basename(__file__)  #获取当前文件名称 justtest.py
print os.path.basename(r'd:\workspace\R')  #获取指定目录的相对路径，即当前目录名:R

#获取绝对路径
print os.path.abspath(__file__)  #获取当前文件的绝对路径C:\Python27\Scripts\djangotest\justtest.py
print os.path.abspath(r'd:\workspace\R')  #获取指定目录的绝对路径d:\workspace\R

os.name	输出字符串指示正在使用的平台，window用nt表示，Linux/unix用posix表示
os.getcwd()	得到当前工作目录，即当前python脚本工作的目录路径
os.listdir()	返回指定目录下的所有文件和目录名,返回列表[]	os.listdir(os.getcwd())
os.remove()	删除一个文件
os.system()	运行shell命令	os.system('dir') os.system('cmd')
os.sep	可以取代操作系统特定的路径分割符	windows \
os.linesep	字符串给出当前平台使用的行终止符	windows使用\r\n,linux使用\n,mac使用\r
os.path.split()	返回一个路径的目录名和文件名	os.path.split('c:\python27\abc.txt') ('c\python27','abc.txt')
os.path.isfile()/os.path.isdir()	分别检验出路径是一个文件还是目录,返回布尔值	os.path.isdir(os.getcwd()) os.path.isfile('a.txt')
os.path.exists()	检验给出的路径是否真实存在,返回布尔值	os.path.exists('c:\python27')
os.path.abspath(name)	获得绝对路径
os.path.normpath(path)	规范path字符串形式
os.path.getsize(name)	获得文件大小，如果name是目录返回0L
os.path.splitext()	分离文件名与扩展名	os.path.splitext('a.txt')-> ('a','.txt')
os.path.join(path,name)	连接目录与文件名或目录	os.paht.join('c:\python','a.txt')->'c:\python\a.txt'
os.path.basename(path)	返回文件名，path填入文件名或路径名	os.path.basename('c:\python27\a.txt')->'a.txt'
os.path.dirname(path)	返回路径名	os.path.dirname('c:\python\a.txt')->'c:\python'

二、标准OS流

stdin, stdout, stderr在Python中都是文件属性的对象，他们在Python启动时自动与Shell环境中的标准输入，输出，出错关联。
sys.stdin　　标准输入

sys.stdout　　标准输出

sys.stderr　　错误输出

1.sys.stdin 数据输入标准源

2.sys.stdout 数据一般出现在屏幕上

3.sys.stderr 错误信息，如栈追踪

print obj ->实际上是-> sys.stdout.write(obj+'\n') ->默认输出到控制台 sys.stdout=__cosole__

->重定向输出 f=open('out.log','w') sys.stdout=f

input()/raw_input('promtion') ->实际上是-> print 'promotion'

sys.stdin.readline()[:-1]

3.管道输出

stdin 标准输入（键盘）

stdout 标准输出（缓冲输出到显示器）

stderr 标准错误（非缓冲输出到屏幕）

在一个命令后面续写其他的多个命令，管道符号| 将一个命令的标准输出和下一个命令的标准输入连在一起

$cat file.txt | python script.py | sort

cat file.tex【标准输出（sys.stdout）】--->script.py读取【file.txt写入的】再输出【sys.stdout】--->sort得到script.py输出的数据，再输出

管道script.py 会从它的sys.stdin中读取数据（file.txt写入的），并把结果写入sys.stdout(sort在此得到数据）

三、操作文件

3.1 打开文件

open()内建函数，返回一个文件对象，open()和file()功能相同

3.1.1定义

open(name[,mode[,buffering]]) #name为文件名， mode模式和buffering缓冲为可选

3.1.2 解释定义

mode模式 ===》'r','w','a','b','+'分别为读(默认模式)、写(先清空再写入)、追加、二进制访问、读写

rU -> 以读方式打开，同时提供通用换行符支持

bufferring ===》 0或False-无缓冲，直接针对硬盘

1或True-有缓冲，使用内存代替硬盘

　　　　　　大于1的数字-缓冲区的大小

任意负数或不提供-使用默认的缓冲区大小

3.1.3例子

f=open(r'C:\text\somefile.txt') #打开某路径下的txt文件，以读方式打开

3.2 写入

f=open('file.txt','w')

f.write('Hello') #所提供的参数string会被追加到文件中已存在部分的后面

f.write('world!')

f.close

3.3 读取

f=open('file.txt','r') #可以省略r，因为r是默认的模式

f.read(4) #读取四个字符，返回读取的值

f.read() #读取剩余的字符，返回剩余的值

f.read(-1) #读取所有

f.read() #读取文件中的所有字符，返回字符串形式

3.4 读写行

x=f.readline() 读取一行，带数字参数则返回读取的字符的最大值

x=f.readline(-1) 读取所有行

x=f.readlines() 读取文件的所有行并返回包括换行符，返回的是字符串列表，x[0]为第一行内容

x=f.writelines() 所有的字符串写入文件，包括换行符 \n(linux) \r(mac) \r\n(windows)符号用来换行 --------由os.linesep决定

3.5 关闭文件

方法1

f.close()

方法2

with open('file.txt') as somefile:

　　do_something(somefile) #执行完with语句后会自动关闭文件

3.6 关于换行

Unix文件中的换行用\n表示

Windows文件中的换行用\r\n表示

Mac文件中的换行用\r表示

unix/mac中的文件在windows中打开，所有文字会变成一行

windows中的文件在unix/mac中打开，每行行尾多出一个^M符号

例子

f=open('/tmp/x','w+')

f.tell() 输出当前位置 0

f.wirte('test line\n') 写入字符串

f.tell() 输出光标当前位置10

f.seek(-6,1) 光标往前6个字符得长度

f.readline() 读取行

f.close()

.read() 每次读取整个文件，它通常用于将文件内容放到一个字符串变量中

.readlines() 一次读取整个文件（类似于 .read()

.readlines() 自动将文件内容分析成一个行的列表，该列表可以由 Python 的 for ... in ... 结构进行处理.

.readline() 每次只读取一行，通常比 .readlines() 慢得多。仅当没有足够内存可以一次读取整个文件时，才应该使用 .readline()。

四、操作excel

读取excel文件可以用两个模块xlrd（读取）和xlwt（写入）即可

4.1 安装xlrd

方法1、到python官网http://pypi.python.org/pypi/xlrd下载模块。下载的文件例如：xlrd-0.9.3.tar.gz。解压放到python27/Lib/site-packages目录下

方法2、用命令安装 easy_install xlrd或者pip install xlrd

4.2 使用xlrd

4.2.1 导入模块

import xlrd

4.2.2 打开excel

myWorkbook=xlrd.open_workbook('D:\\Daisy\GDCAuto\\testfile\\testData.xls')

4.2.3 获取excel工作表

mySheets=myWorkbook.sheets()　　　　　　　　　　　　#获取工作列表，获取表格中所有sheet,通过索引顺序获取，所有sheet中的第一个sheet

mySheet = mySheets[0]

mySheet = myWorkbook.sheet_by_index(0) 　　　　　　 #通过索引顺序获取，获取到表格中第一个sheet

mySheet = myWorkbook.sheet_by_name(u'Sheet1') 　　 #通过名称获取，获取到表格中的sheet名称为xxx的sheet

4.2.4 获取行数

nrows=mySheet.nrows　　#获取sheet中的行数

ncols=mySheet.ncols #获取sheet中的列数

4.2.5 获取一行和一列的数据

myrow=mySheet.row_values(i)　　#i为行数，从0开始计数，返回list对象

mycol=mySheet.col_values(i)　　 #i为列数，从0开始计数，返回list对象

4.2.6 读取单元格的数据

mycell=mySheet.cell(i,j)　　　　#获取行数i，列数j的单元格

mycellvalue=mycell.value　　　 #获取单元格的数据

myCellValue = mySheet.cell_value(i, j)　　#直接获取单元格数据

value=mySheet.cell_value(1,0).encode('utf-8') #以utf-8格式读取

4.2.7 读取日期格式的数据 1990/01/07

date_value=xlrd.xldate_as_tuple(sheet.cell_value(1,2),myWorkbook.datemode) //(1990,1,7,0,0,0)

date(*date_value[:3])　　　　　　//datetime.date(1990,1,7)

date(*date_value[:3]).strftime('%Y%m%d')　　　　//'1990/01/07'

python读取excel中单元格的内容返回有5种类型的数据ctype

0：empty

1：string

2：number

3：date

4：boolean

5：error

即date的ctype=3

if (sheet.cell(row,col).ctype == 3):
　　date_value = xlrd.xldate_as_tuple(sheet.cell_value(1,3),myWorkbook.datemode)
　　date_tmp = date(*date_value[:3]).strftime('%Y/%m/%d')

4.2.8 读取合并单元格内容

只能获取合并单元格的第一个cell的行列索引，才能读到值

读取好朋友：sheet2.col_values(4)[1]

读取暂无：sheet2.row_values(7)[2]

获取合并的单元格：

读取文件的时候需要将formatting_info参数设置为True，默认是False

workbook = xlrd.open_workbook(r'F:\demo.xlsx',formatting_info=True)

sheet2 = workbook.sheet_by_name('sheet2')

sheet2.merged_cells //返回[(7, 8, 2, 5), (1, 3, 4, 5), (3, 6, 4, 5)]，（7, 8, 2, 5）的意思是第7行到7行，第2列到第4列合并为‘暂无’。

sheet2.cell_value(7,2) //返回（7, 8, 2, 5）合并的内容 ‘暂无’

4.3 安装xlwt

方法1、到python官网http://pypi.python.org/pypi/xlwt下载模块。下载的文件例如：xlwt-1.0.0.tar.gz。解压放到python27/Lib/site-packages目录下

方法2、用命令安装 easy_install xlwt或者pip install xlwt

4.4 使用xlwt

4.4.1 导入模块

import xlwt

4.4.2 创建Excel工作簿

myWorkbook=xlwt.Workbook()

4.4.3 添加excel工作表

mySheet = myWorkbook.add_sheet('A Test Sheet')

4.4.4 写入数据

myStyle = xlwt.easyxf('font: name Times New Roman, color-index red, bold on', num_format_str='#,##0.00') #数据格式

mySheet.write(i, j, 1234.56, myStyle)

mySheet.write(2, 0, 1) 　　　　　　 #写入A3，数值等于1

mySheet.write(2, 1, 1) 　　　　　　 #写入B3，数值等于1

mySheet.write(2, 2, xlwt.Formula("A3+B3")) 　　 #写入C3，数值等于2（A3+B3）

4.4.5 保存

myWorkbook.save('excelFile.xls')

4.4.6 高级使用方法

f = xlwt.Workbook()

sheet1 = f.add_sheet(u'sheet1',cell_overwrite_ok=True)　　　　　　 #单元格有被覆盖的时候不会提示错误

row0 = [u'业务',u'状态',u'北京',u'上海',u'广州',u'深圳',u'状态小计',u'合计']

column0 = [u'机票',u'船票',u'火车票',u'汽车票',u'其它']

status = [u'预订',u'出票',u'退票',u'业务小计']

for i in range(0,len(row0)):
　　sheet1.write(0,i,row0[i],set_style('Times New Roman',220,True))

i, j = 1, 0
while i < 4*len(column0) and j < len(column0):
　　sheet1.write_merge(i,i+3,0,0,column0[j],set_style('Arial',220,True)) #第一列，i表示行，i+3中的3表示跨3行，0为列，column0[j]表示单元格内容
　　sheet1.write_merge(i,i+3,7,7) 　　　　　　　　　　　　　　　　　　#最后一列"合计"，
　　i += 4
　　j += 1

sheet1.write_merge(21,21,0,1,u'合计',set_style('Times New Roman',220,True))

i = 0
while i < 4*len(column0):
　　for j in range(0,len(status)):
　　sheet1.write(j+i+1,1,status[j])
　　i += 4

f.save('demo1.xlsx')

def set_style(name,height,bold=False):
　　style = xlwt.XFStyle() 　　# 初始化样式
　　font = xlwt.Font() 　　 # 为样式创建字体
　　font.name = name　　 # 'Times New Roman'
　　font.bold = bold
　　font.color_index = 4
　　font.height = height
　　style.font = font
　　return style

4.5 xlsxwriter模块

4.5.1 安装

pip install xlsxwriter

4.5.2 使用

import xlsxwriter

import xlsxwriter

workbook = xlsxwriter.Workbook('hello.xlsx') # 建立文件

worksheet = workbook.add_worksheet() # 建立sheet， 可以work.add_worksheet('employee')来指定sheet名，但中文名会报UnicodeDecodeErro的错误

worksheet.write('A1', 'Hello world') # 向A1写入

workbook.close()

其他使用方法：
formatHeader=workbook.add_format()#添加一种格式
formatHeader.set_bg_color("yellow") #背景颜色变成黄色
formatHeader.set_bold() #把字体加粗
formatHeader.set_font_color('blue')#字体颜色变为蓝色
formatHeader.set_align("center")#文本居中
formatHeader.set_align("vcenter")
worksheet.write_row(0,0,[cat1,cat2,cat3],formatHeader)
worksheet.freeze_panes(1,0)

参考资料：https://xlsxwriter.readthedocs.io/contents.html

五、操作json文件

读取json文件

import json

f=open(''filepath","rb+")

content=json.loads(f.read())

f.close()

六、操作csv文件

6.1 定义

python中有一个读写csv文件的包，直接import csv即可。

csv文件的性质：

值没有类型，所有值都是字符串
不能指定字体颜色等样式
不能指定单元格的宽高，不能合并单元格
没有多个工作表
不能嵌入图像图表

在CSV文件中，以,作为分隔符，分隔两个单元格。像这样a,,c表示单元格a和单元格c之间有个空白的单元格。依此类推。

excel形式

存储为csv文件

假设上述csv文件保存为"A.csv"，如何用Python像操作Excel一样提取其中的一列，即一个字段，利用Python自带的csv模块，有两种方法可以实现：

第一种方法使用reader函数，接收一个可迭代的对象（比如csv文件），能返回一个生成器，就可以从其中解析出csv的内容：比如下面的代码可以读取csv的全部内容，以行为单位： with open('A.csv','rb') as csvfile: reader = csv.reader(csvfile) rows= [row for row in reader] print rows得到： ['1', 'Apple', '12', '98'], ['2', 'Ben', '13', '97'], ['3', 'Celia', '14', '96'], ['4', 'Dave', '15', '95']]
要提取其中某一列，可以用下面的代码：
with open('A.csv','rb') as csvfile: reader = csv.reader(csvfile) column = [row[2] for row in reader] print column得到：注意从csv读出的都是str类型。这种方法要事先知道列的序号，比如Age在第2列，而不能根据'Age'这个标题查询。这时可以采用第二种方法：第二种方法是使用DictReader，和reader函数类似，接收一个可迭代的对象，能返回一个生成器，但是返回的每一个单元格都放在一个字典的值内，而这个字典的键则是这个单元格的标题（即列头）。用下面的代码可以看到DictReader的结构： with open('A.csv','rb') as csvfile: reader = csv.DictReader(csvfile) column = [row for row in reader] print column得到： {'Age': '13', 'No.': '2', 'Score': '97', 'Name': 'Ben'}, {'Age': '14', 'No.': '3', 'Score': '96', 'Name': 'Celia'}, {'Age': '15', 'No.': '4', 'Score': '95', 'Name': 'Dave'}] 如果我们想用DictReader读取csv的某一列，就可以用列的标题查询： with open('A.csv','rb') as csvfile: reader = csv.DictReader(csvfile) column = [row['Age'] for row in reader] print column 就得到： ['12', '13', '14', '15']

读取行

方法一：reader

第一种方法使用reader函数，接收一个可迭代的对象（比如csv文件），能返回一个生成器，就可以从其中解析出csv的内容：比如下面的代码可以读取csv的全部内容，以行为单位：

import csv
with open('A.csv','rb') as csvfile: reader = csv.reader(csvfile) rows = [row for row in reader] print rows

得到：

[['No.', 'Name', 'Age', 'Score'],
['1', 'Apple', '12', '98'],
['2', 'Ben', '13', '97'], ['3', 'Celia', '14', '96'], ['4', 'Dave', '15', '95']]

要提取其中第二行，可以用下面的代码：

import csv
with open('A.csv','rb') as csvfile: reader = csv.reader(csvfile) for i,rows in enumerate(reader): if i == 2: row = rows print row

得到：

['2', 'Ben', '13', '97']

这种方法是通用的方法，要事先知道行号，比如Ben的记录在第2行，而不能根据’Ben’这个名字查询。这时可以采用第二种方法：

方法二：DictReader

第二种方法是使用DictReader，和reader函数类似，接收一个可迭代的对象，能返回一个生成器，但是返回的每一个单元格都放在一个字典的值内，而这个字典的键则是这个单元格的标题（即列头）。用下面的代码可以看到DictReader的结构：

import csv
with open('A.csv','rb') as csvfile: reader = csv.DictReader(csvfile) rows = [row for row in reader] print rows

得到：

[{'Age': '12', 'No.': '1', 'Score': '98', 'Name': 'Apple'}, {'Age': '13', 'No.': '2', 'Score': '97', 'Name': 'Ben'}, {'Age': '14', 'No.': '3', 'Score': '96', 'Name': 'Celia'}, {'Age': '15', 'No.': '4', 'Score': '95', 'Name': 'Dave'}]

如果我们想用DictReader读取csv的某一列，就可以用列的标题查询：

import csv
with open('A.csv','rb') as csvfile: reader = csv.DictReader(csvfile) for row in reader: if row['Name']=='Ben': print row

就得到：

{'Age': '13', 'No.': '2', 'Score': '97', 'Name': 'Ben'}

可见，DictReader很适合读取csv的的行（记录）。

最常用的一种方法，利用pandas包

import pandas as pd

#任意的多组列表
a = [1,2,3] b = [4,5,6] #字典中的key值即为csv中列名 dataframe = pd.DataFrame({'a_name':a,'b_name':b}) #将DataFrame存储为csv,index表示是否显示行名，default=True dataframe.to_csv("test.csv",index=False,sep='')

   a_name  b_name
0       1       4
1 2 5 2 3 6

同样pandas也提供简单的读csv方法

import pandas as pd
data = pd.read_csv('test.csv')

会得到一个DataFrame类型的data，不熟悉处理方法可以参考pandas十分钟入门

另一种方法用csv包，一行一行写入

import csv

#python2可以用file替代open
with open("test.csv","w") as csvfile: 
    writer = csv.writer(csvfile)

    #先写入columns_name
    writer.writerow(["index","a_name","b_name"]) #写入多行用writerows writer.writerows([[0,1,3],[1,2,3],[2,3,4]])

index   a_name  b_name
0       1       3
1 2 3 2 3 4

读取csv文件用reader

import csv
with open("test.csv","r") as csvfile: reader = csv.reader(csvfile) #这里不需要readlines for line in reader: print line

以上。

1. 读文件

csv_reader = csv.reader(open('data.file', encoding='utf-8'))
    for row in csv_reader:
        print(row)

例如有如下的文件

输出结果如下

['0.093700','0.139771','0.062774','0.007698']

['-0.022711','-0.050504','-0.035691','-0.065434']

['-0.090407','0.021198','0.208712','0.102752']

['-0.085235','0.009540','-0.013228','0.094063']

可见csv_reader把每一行数据转化成了一个list，list中每个元素是一个字符串。

2. 写文件

读文件时，我们把csv文件读入列表中，写文件时会把列表中的元素写入到csv文件中。

list = ['1', '2','3','4']
out = open(outfile, 'w')
csv_writer = csv.writer(out)
csv_writer.writerow(list)

可能遇到的问题：直接使用这种写法会导致文件每一行后面会多一个空行。

解决办法如下：

out = open(outfile, 'w', newline='')
csv_writer = csv.writer(out, dialect='excel')
csv_writer.writerow(list)

-------------------------------------------------------------------------------------------------------------

file.txt 内容为 your mother was a hamster and your father smelled of elderberries.

script.py内容为

import sys

text=sys.sdin.read()

words=text.split()

wordcount=len(words)

print wordcount

执行 file.txt | python script.py 的结果为11

os模块是访问操作系统功能的主要接口，是文件系统操作的接口

os.path 支持路径名的操作

mkfifo()/mknod()	创建命名管道/创建文件系统节点
remove()/unlink()	delete file删除文件
rename()/renames()	重命名文件
stat()	返回文件信息
symlink()	创建符号链接
utime()	更新时间戳
tmpfile()	创建并打开一个新的临时文件
walk()	生成一个目录树下的所有文件名
目录/文件夹
chdir()/fchdir()	改变当前工作目录/通过一个额外你见描述符改变当前工作目录
chroot()	改变当前进程的根目录
listdir()	列出指定目录的文件
getcwd()/getcwdu()	返回当前工作目录/功能相同，但返回一个unicode对象
mkdir()/makedirs()	创建目录/创建多层目录
rmdir()/removedirs()	删除目录/删除多层目录
访问/权限
access()	检验权限模式
chmod()	改变权限模式
chown()/lchown()	改变owner和group id/功能相同，但不会跟踪链接
umask()	设置默认权限模式
os.path模块
basename()	去掉目录路径，返回文件名
dirname()	去掉文件名，返回目录路径
join()	将分离的各部分组合成一个路径名
split()	返回（dirname(),basename()）元祖
splitdrive()	返回(drivename,pahtname)元祖
splitext()	返回（filename,extension)元祖
信息
getatime()	返回最近访问时间
getctime()	返回文件创建时间
getmtime()	返回最近文件修改时间
getsize()	返回文件大小
查询
exists()	指定路径文件或目录是否存在
isabs()	指定路径是否为绝对路径
isdir()	指定路径是否存在且为一个目录
isfile()	指定路径是否存在且为一个文件
islink()	指定路径是否存在且为一个符号链接
ismount()	指定路径是否存在且为一个挂载点
samefile()	两个路径名是否指向同个文件