机器学习过程步骤总结

最新推荐文章于 2024-06-03 11:02:58 发布

lifeisaclimb

最新推荐文章于 2024-06-03 11:02:58 发布

阅读量457

点赞数

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/lifeisaclimb/article/details/117225395

版权

载入数据

导入类库、类和方法以及载入数据集

导入类库、类和方法

导入语法：
from … import … as …
from … import …
import … as …
import …

载入数据集

数据集一般存储为csv文件，使用pandas的read_csv读取数据
DataFrame pandas.read_csv函数部分参数介绍：
filepath_or_buffer：url或者文件路径；
sep : str, default ‘,’指定分隔符。如果不指定参数，则会尝试使用逗号分隔；
delimiter : str, default None定界符，备选分隔符（如果指定该参数，则sep参数失效）；
delim_whitespace : boolean, default False. 指定空格(例如’ ‘或者’ ‘)是否作为分隔符使用，等效于设定sep=’\s+’。如果这个参数设定为Ture那么delimiter 参数失效；
skip_blank_lines=True，忽略注释行和空行
header : int or list of ints，指定用作列名的行号，也表示数据的开头。默认行为是推断列名，如果没有传递列名即names参数，则行为与header=0相同，并且从文件的第一行推断列名，如果显式传递列名即names参数，则行为与header=None相同。
names : array-like, default None 要使用的列名列表，此列表中不允许有重复项。如果文件包含标题行，则应显式传递header=0，用names覆盖列名数据从第二行开始读取，如果数据文件中没有列标题行，则应执行header=None；
usecols: array-like, default None返回一个数据子集，该列表中的值必须可以对应到文件中的位置（数字可以对应到指定的列）或者是字符传为文件中的列名。例如：usecols有效参数可能是 [0,1,2]或者是 [‘foo’, ‘bar’, ‘baz’]。
na_values：取值类型，标量，str, list-like, or dict，要识别为NA/NaN的其他字符串。默认情况下，以下值被解释为NaN:“，”N/A“，”N/A N/A“，”NA“，”-1.#IND“，”-1.#QNAN“，”NaN“，”-NaN“，”1.#IND“，”1.#QNAN“，”NA>“，”N/A“，”NA“，”NULL“，”NaN/A“，”NaN“，”NULL“。
keep_default_na：bool，default True，解析数据时是否包含默认的NaN值
na_filter:布尔，默认为True
检测缺少的值标记（空字符串和na_values值指定的值）。在没有任何NAs的数据中，传递na_ filter=False可以提高读取大文件的性能。
请注意，如果na_filter作为False传入，则keep_default_na和na_values参数将被忽略。

返回值：DataFrame

数据理解

查看数据

pandas的DataFrame对象提供了很多方法
数据列：data.columns
数据类型：data.dtypes
数据信息：data.info()
数据维度：data.shape
按行查看数据
data.head(10)
data.tail()
使用列名查看数据
data[‘列名’]
data[[‘列名1’,‘列名2’,…]]
布尔索引：使用与DataFrame索引长度相同的布尔向量从DataFrame中选择行查看 df[[True,False…]]
loc：通过⾏标签或列标签获取指定⾏、列数据
data.loc[[行]，[列]] 行、列标签
iloc : 通过行索引或列索引获取⾏数据
data.iloc[[行]，[列]] 行、列索引
il

最低0.47元/天解锁文章

lifeisaclimb

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习过程步骤总结

机器学习过程步骤总结载入数据导入类库、类和方法载入数据集数据理解查看数据描述性统计数据分组分布（适用于分类）数据属性的相关性数据分布分析数据分析可视化数据准备数据清洗特征选择数据转化插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入载入数据导入类库、类和方法以及载入数据集导入类库、类和方
复制链接

扫一扫