什么是csv文件
CSV(Comma Separated Values)全称逗号分隔值文件是一种简单、通用的文件格式,被广泛的应用于应用程序(数据库、电子表格等)数据的导入和导出以及异构系统之间的数据交换。因为CSV是纯文本文件,不管是什么操作系统和编程语言都是可以处理纯文本的,而且很多编程语言中都提供了对读写CSV文件的支持,因此CSV格式在数据处理和数据科学中被广泛应用。
CSV文件有以下特点:
- 纯文本,使用某种字符集(如ASCII、Unicode、GB2312)等);
- 由一条条的记录组成(典型的是每行一条记录);
- 每条记录被分隔符(如逗号、分号、制表符等)分隔为字段(列);
- 每条记录都有同样的字段序列。
CSV文件可以使用文本编辑器或类似于Excel电子表格这类工具打开和编辑,当使用Excel这类电子表格打开CSV文件时,你甚至感觉不到CSV和Excel文件的区别。很多数据库系统都支持将数据导出到CSV文件中,当然也支持从CSV文件中读入数据保存到数据库中。
将数据写入CSV文件
现有五个学生三门课程的考试成绩需要保存到一个CSV文件中,要达成这个目标,可以使用Python标准库中的csv
模块,该模块的writer
函数会返回一个csvwriter
对象,通过该对象的writerow
或writerows
方法就可以将数据写入到CSV文件中,具体的代码如下所示。
import csv
import random
def main():
with open('resources/grade.csv', 'w', encoding='utf-8-sig', newline='') as file:
writer = csv.writer(file)
grades = {}
for _ in range(10):
name = input('请输入名字:')
grades[name] = {i: random.randrange(65, 101) for i in range(3)}
for key, grade in grades.items():
writer.writerow((key, grade[0], grade[1], grade[2]))
if __name__ == '__main__':
main()
上面的writer
函数,除了传入要写入数据的文件对象外,还可以dialect
参数,它表示CSV文件的方言,默认值是excel
。除此之外,还可以通过delimiter
、quotechar
、quoting
参数来指定分隔符(默认是逗号)、包围值的字符(默认是双引号)以及包围的方式。
从CSV文件读取数据
如果要读取刚才创建的CSV文件,可以使用下面的代码,通过csv
模块的reader
函数可以创建出csvreader
对象,该对象是一个迭代器,可以通过next
函数或for-in
循环读取到文件中的数据。
import csv
with open('scores.csv', 'r') as file:
reader = csv.reader(file, delimiter='|')
for data_list in reader:
print(reader.line_num, end='\t')
for elem in data_list:
print(elem, end='\t')
print()
注意:上面的代码对
csvreader
对象做for
循环时,每次会取出一个列表对象,该列表对象包含了一行中所有的字段。
CSV文件读写练习
从文件中读入体温测量数据,显示体温不正常的病人的信息。体温大于38.5摄氏度标记高热,高于37.2摄氏度标记发热。
import csv
with open('resources/temperature.csv') as file1:
with open('resources/result.csv', 'w', encoding='utf-8', newline='') as file2:
writer = csv.writer(file2, delimiter='|')
# writerow方法的参数是一个列表或元组(代表一行中所有的数据,默认用逗号分隔)
writer.writerow(['ID', 'temperature', 'information'])
content = file1.readline()
while content:
no, temp = content.split()
temp = float(temp)
if temp >= 37.2:
if temp <= 38.5:
info = '发热'
else:
info = '高热'
writer.writerow([no, temp, info])
content = file1.readline()