干货|机器学习傻瓜教程
零零总总的也看了很多机器学习的教程、书籍和视频,因为实际操作覆盖的比较少,转头就忘了。写个博客把机器学习的入门内容记录一下。方便后续查询使用。
库导入
机器学习过程中用到的库大体可以分为两类:
数据清洗&预处理库
此部分一般使用python中最基本的三个库:
1)numpy
Numpy 是满足所有数学运算所需要的库,由于代码是基于数学公式运行的
2)pandas
Pandas 则是最好的导入并处理数据集的一个库
3)matplotlib(主要是Matplotlib.pyplot)
Maplotlib(具体而言,Matplotlib.pyplot)则是满足绘图所需要的库
可通过以下的语句进行导入:
as是进行了重命名,方便快速调用。
机器学习算法模型库
sklearn
数据导入
拿到项目或题目的第一步是获取数据,根据数据来源/数据格式的不同采用以下方法:
数据为csv格式
在kaggle和各大竞赛平台,数据一般都是通过csv格式文件进行传递的。
pandas存在read_csv函数可实现将csv文件读入dataframe
read_csv的参数较多,此处仅使用几个常用的:
filepath_or_buffer:文件路径。ps.貌似在python 3.6版本此处只能给出文件名,不能给出文件路径。
sep :分隔符,str, default ‘,’
header ::指定列名称为哪行,默认为第一行。int or list of ints, default ‘infer’
names :指定列名称,若hearder设置为None,此处生效。array-like, default None
index_col :用作行索引的列编号或者列名,如果给定一个序列则有多个行索引。 int or sequence or False, default None
对此函数的官方说明:
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv
中文版解释:
https://www.cnblogs.com/datablog/p/6127000.html
查看数据概况
查看数据特征
查看数据都有哪些特征
数据组合
有时因为数据量,会将数据划分为好几个文件进行存储。读取数据时,依次读取完几个文件后,需要对数据进行拼接组合。
例如在小象学院的一个练习中,存在以下4份数据