机器学习——数据导入/CSV文件导入_机械学习怎么将结果输入到csv文件里-CSDN博客

本文链接：https://blog.csdn.net/qq_42138271/article/details/116706309

在训练机器学习的模型时，数据通常会以csv的格式来存储，将csv数据导入到Python中的方法大概有三种：
1.通过标准的Python库导入csv文件。
2.通过NumPy导入csv文件。
3.通过Pandas导入csv文件。

CSV文件

csv文件是用逗号（，）分隔的文本文件
1.文件头
如果csv的文件里包括文件头的信息，可以很方便地使用文件头信息来设置读入数据字段的属性名称。如果文件里不含有文件头信息，需要自己手动设定读入文件的字段属性名称。数据导入时，设置字段属性名称，有助于提高数据处理程序的可读性。
2.注释
注释行是以“井”号（＃）开头的。是否需要对读入的注释行做处理，取决于采用什么方式读入csv文件。
3.分隔符
csv文件的标准分隔符是逗号（，），当然也可以使用Tab键或空格键作为自定义的分隔符。当使用这两种分隔符时，文件读取是要指明分隔符的。
4.引号
当有的字段值中有空白时，这些值通常都会被引号引起来，默认使用双引号来标记这些字段值。如果采用自定义格式，那么在文件读取时要明确在文件中采用的自定义格式。

采用标准Python类库导入数据

Python提供了一个标准类库csv，用来处理csv文件。这个类库中的reader（）函数用来读入csv文件。当csv文件被读入后，可以利用这些数据生成一个NumPy数组，用来训练算法模型。首先下载数据文件到应用目录下，并命名文件为pima.csv。这个文件中所有的数据都是数字，并且数据中不含有文件头。

from csv import reader 
import numpy as np 
＃使用标准的Python类库导入csv数据
filename ='pima data.csv' 
with open(filename ,'rt') as raw_data: 
	readers = reader(raw data, delimiter=',') 
	x   = list(readers) 
	data = np.array(x).astype('float') 
	print(data.shape)

采用NumPy导入数据

也可以使用NumPy的loadtxt（）函数导入数据。使用这个函数处理的数据没有文件头，并且所有的数据结构是一样的，也就是说，数据类型是一样的。

from numpy import loadtxt 
＃使用NumPy导入csv数据
filename ='pima data.csv' 
with open(filename ,'rt') as raw_data: 
	data= loadtxt(raw_data, delimiter=',') 			  
	print(data.shape)

采用Pandas导入数据

通过Pandas来导入csv文件要使用pandas.read_ csv（）函数。这个函数的返回值是DataFrame，可以很方便地进行下一步的处理。这个函数的名称非常直观，便于代码的阅读和后续对数据的处理。在机器学习的项目中，经常利用Pandas来做数据清洗与数据准备工作。因此，在导入csv文件时，推荐大家使用这个方法。

from pandas import read_csv 
＃使用Pandas导入csv数据
filename ='pima_data.csv' 
names = ['preg','plas','pres','skin','test','mass','pedi','age', 'class'] 
data = read_csv(filename, names＝names)
print(data.shape)