做数据分析离不开对数据的获取,而常用到的作为数据存储的文件类型有:csv,json,vml,hdf等(本文介绍对csv文件的数据获取方法numpy.loadtxt())。
获取csv文件数据常用到的模块
照自己目前的学习进度,对csv数据的获取通常会用到numpy模块的loadtxt()方法以及在numpy基础上的pandas模块(下篇博客提及).
numpy的loadtxt()方法
numpy.loadtxt()方法的参数有以下这些:
参数作用fname被读取的文件名(文件的相对地址或者绝对地址)dtype指定读取后数据的数据类型comments跳过文件中指定参数开头的行(即不读取)delimiter指定读取文件中数据的分割符converters对读取的数据进行预处理skiprows选择跳过的行数usecols指定需要读取的列unpack选择是否将数据进行向量输出encoding对读取的文件进行预编码
各个参数的详细用法
fname:指定需要读取的CSV文件(从某种意义来说,CSV文件属于txt文件,详细可百度)地址即可完成最简单的读取操作,如下: 创建一个csv文件(test_csv.csv),文件内容是: 使用numpy.loadtxt()读取,此时使用文件的相对地址进行读取:
import numpy as np
csv_array = np.loadtxt('./test_csv.csv',dtype=str)
结果显示为: 考虑到loadtxt()中的dtype参数默认设置为float,这里设置为str字符串便于显示,顺带说一下,dtype参数指定读取后的数据类型,而numpy读取后的数据是一个nu