上一节我们讲了向量计算:曾革:Python 数据分析(二):向量计算,这一节我们开始讲数据的处理。
一、首先看怎么导入数据
常见的数据存储形式有 CSV,Excel,TXT 以及数据库等,我们一个个看。
1,使用 read_csv 函数导入 CSV 文件
语法:read_csv(file, encoding), file 指文件路径,需要注意的是如果导入中文,则 encoding 需要设置为 UTF-8。
CSV 是带表头的,表头就是第一行的数据,在这里是‘age, name’,演示如下:
2,使用 read_table 导入普通文本文件
语法:read_table(file, names=[列名1,列名2, ...], sep='',encoding,...)
各参数表述的意思:
file, 是文件路径;
names ,是列名,默认文件中的第一行作为列名;
ep, 是分隔符,默认为空,表示默认导入为一列;
encoding 是设置编码用的,同样需要注意的是在导入中文的时候需要设置为 UTF-8。
特别需要注意的是,如果文件名带有中文,出现异常时可以再加一个参数 engine='python' 来尝试解决。
注意普通的 TXT 文件是不带表头的,所以默认会把第一行作为表头,这样会导致我们的数据缺失一行,如下:
所以正确的用法是设置好 names 和 sep 参数,如下:
3,使用 read_excel函数导入 Excel 文件
语法: read_excel(filename, sheetname, names), 各个参数的意思如下:
filename,是文件路径,
sheetname,Sheet的名字
names,列名,默认为文件中的第一行
二,数据导出
我们可以使用 to_csv函数导出文本文件。语法如下:to_csv(filePath, sep=',',index=TRUE, header=TRUE), 同样的我们来看看各个参数,
filePath 是导出的文件路径
sep 是分隔符,默认为逗号(",")
index,是否导出行序号,默认为 TRUE
header,是否导出列名,默认为TRUE
打开文件,发现文件里面的内容是这样的,自带了索引:
所以我们需要加上 index = False 来去掉这个索引:
以上就是数据的导入导出,接下来我们的内容涉及到数据的处理等知识。