干货|机器学习傻瓜教程
零零总总的也看了很多机器学习的教程、书籍和视频,因为实际操作覆盖的比较少,转头就忘了。写个博客把机器学习的入门内容记录一下。方便后续查询使用。
库导入
机器学习过程中用到的库大体可以分为两类:
数据清洗&预处理库
此部分一般使用python中最基本的三个库:
1)numpy
Numpy 是满足所有数学运算所需要的库,由于代码是基于数学公式运行的
2)pandas
Pandas 则是最好的导入并处理数据集的一个库
3)matplotlib(主要是Matplotlib.pyplot)
Maplotlib(具体而言,Matplotlib.pyplot)则是满足绘图所需要的库
可通过以下的语句进行导入:
as是进行了重命名,方便快速调用。
机器学习算法模型库
sklearn
数据导入
拿到项目或题目的第一步是获取数据,根据数据来源/数据格式的不同采用以下方法:
数据为csv格式
在kaggle和各大竞赛平台,数据一般都是通过csv格式文件进行传递的。
pandas存在read_csv函数可实现将csv文件读入dataframe