机器学习过程步骤总结

载入数据

导入类库、类和方法以及载入数据集

导入类库、类和方法

导入语法:
from … import … as …
from … import …
import … as …
import …

载入数据集

数据集一般存储为csv文件,使用pandas的read_csv读取数据
DataFrame pandas.read_csv函数部分参数介绍:
filepath_or_buffer:url或者文件路径;
sep : str, default ‘,’指定分隔符。如果不指定参数,则会尝试使用逗号分隔;
delimiter : str, default None定界符,备选分隔符(如果指定该参数,则sep参数失效);
delim_whitespace : boolean, default False. 指定空格(例如’ ‘或者’ ‘)是否作为分隔符使用,等效于设定sep=’\s+’。如果这个参数设定为Ture那么delimiter 参数失效;
skip_blank_lines=True,忽略注释行和空行
header : int or list of ints,指定用作列名的行号,也表示数据的开头。默认行为是推断列名,如果没有传递列名即names参数,则行为与header=0相同,并且从文件的第一行推断列名,如果显式传递列名即names参数,则行为与header=None相同。
names : array-like, default None 要使用的列名列表,此列表中不允许有重复项。如果文件包含标题行,则应显式传递header=0,用names覆盖列名数据从第二行开始读取,如果数据文件中没有列标题行,则应执行header=None;
usecols: array-like, default None返回一个数据子集,该列表中的值必须可以对应到文件中的位置(数字可以对应到指定的列)或者是字符传为文件中的列名。例如:usecols有效参数可能是 [0,1,2]或者是 [‘foo’, ‘bar’, ‘baz’]。
na_values:取值类型,标量,str, list-like, or dict,要识别为NA/NaN的其他字符串。默认情况下,以下值被解释为NaN:“,”N/A“,”N/A N/A“,”NA“,”-1.#IND“,”-1.#QNAN“,”NaN“,”-NaN“,”1.#IND“,”1.#QNAN“,”NA>“,”N/A“,”NA“,”NULL“,”NaN/A“,”NaN“,”NULL“。
keep_default_na:bool,default True,解析数据时是否包含默认的NaN值
na_filter:布尔,默认为True
检测缺少的值标记(空字符串和na_values值指定的值)。在没有任何NAs的数据中,传递na_ filter=False可以提高读取大文件的性能。
请注意,如果na_filter作为False传入,则keep_default_na和na_values参数将被忽略。

返回值:DataFrame

数据理解

查看数据

pandas的DataFrame对象提供了很多方法
数据列:data.columns
数据类型:data.dtypes
数据信息:data.info()
数据维度:data.shape
按行查看数据
data.head(10)
data.tail()
使用列名查看数据
data[‘列名’]
data[[‘列名1’,‘列名2’,…]]
布尔索引:使用与DataFrame索引长度相同的布尔向量从DataFrame中选择行查看 df[[True,False…]]
loc:通过⾏标签或列标签获取指定⾏、列数据
data.loc[[行],[列]] 行、列标签
iloc : 通过行索引或列索引获取⾏数据
data.iloc[[行],[列]] 行、列索引
il

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值