是不是想过用 Python 做点机器学习项目,但不知道从哪开始?
今天就手把手教你怎么用 Python 完成你人生第一个机器学习项目。
本篇分步教程主要有以下几个步骤:下载和安装 Python SciPy,获得用 Python 执行机器学习的最有用的软件包。
加载一个数据集,利用统计摘要和数据可视化理解数据集的结构。
搭建 6 个机器学习模型,选择最好的一个,逐步确认模型的准确率可靠有保证。
如果你目前是个机器学习新手,打算先从使用 Python 做起,那这篇教程绝对为你量身打造。
开始我们的表演!
怎样用 Python 开始机器学习之路?
学习机器学习相关技术的最好方式就是先自己设计和完成一些小项目。
Python 是一种非常流行和强大的解释性编程语言。不像 R 语言,Python 是个很完整的语言和平台,你既可以用来做研发,也可以用来开发产品体系。
而且,Python 还有很多模块和程序库供我们选择,从而针对一个任务能有很多个解决方案。怎么样,听起来还是很厉害的吧?
如果用 Python 执行机器学习,刚开始时最好方式就是先完成一个小项目,为什么这么说呢?
因为这会让你先懂得如何安装和启动 Python 解释器(这是最起码的要求吧)。
因为这会让你从总体上知道怎样一步步完成一个项目。
因为这会增加你的信心,或许能让你开始创建自己的小项目。
新手很需要一个完整的小项目练手
教材书还有课程这些东西还是比较烦人的,虽然给你讲解的很细,讲的也很多,但都太零碎,你单靠这些很难领会这些知识点如何综合运用到一起。
将机器学习运用到自己的数据集上时,就算是开始一个项目了。
一个机器学习项目可能并不是直线式的,但是很多步骤都是耳熟能详:定义问题。
准备数据。
评估算法。
优化结果。
呈现结果。
真正掌握一个新平台新工具的最好方法,就是用它一步步完成一个完整的机器学习项目,并涉及所有的重要步骤,也就是从导入数据,总结数据,评估算法到做出预测等。
这么一套流程操作下来,你大概就能明白其中的套路了。
机器学习的 Hello World
先开始拿来练手的一个最好的小项目就是分类鸢尾花(数据集链接),这项目很适合新手,因为非常简单易懂。
因为属性都是数值,所以你要知道这么去导入和处理数据。
该项目是个分类问题,能让你练习操作一种相对简单的监督式学习算法。
同时它也是个多类分类问题,因此可能需要一些特殊的处理方法。
它只有 4 个属性和 150 个示例,意味着数据集很小,不会占太多内存。
所有数值属性都有相同的单位和大小,在使用前无需进行特别的缩放和转换。
下面我们就开始学习如何用 Python 执行机器学习中的 Hello World。
用 Python 进行机器学习:手把手教程
在这部分,我们会完成一个完整的机器学习小项目,下面是主要步骤:安装 Python 和 SciPy 平台。
导入数据集。
总结数据集。
可视化数据集。
评估算法。
做出预测。
可以自己试着敲命令行代码,要想加快速度,也可以复制粘贴我的代码。
1.下载、安装和启动 Python SciPy
如果你电脑上没安装,先安装 Python 和 SciPy 平台。
这部分不再细说,因为网上有很多教程。
1.1 安装 SciPy 程序库
本文所用 Python 版本为 2.7 或 3.5 。
scipy
numpy
matplotlib
pandas
Sklearn
安装上面这些程序库有很多种方法,建议选择选择一种方法,然后安装这些程序库都用这种方法。
SciPy 安装页面上提供了在多种系统安装上文程序库的详细方法:在 Mac OS 上,你可以用 macports 安装 Python2.7 和这些程序库,更多信息点击这里
在 Linux 上,可以用你的软件包管理器,就跟在 Fedora 上安装 RPM 一样。
如果你是 Windows 系统,建议安装免费版的 Anaconda。
注意:上面这些方法的基础是你的电脑上已经安装了 0.18 或更高版本的 scikit-learn。
1.2启动 Python,检查程序版本
这一步很重要,一定要确保你成功安装了 Python 环境,可以正常运行。
下面的脚本可以帮你测试你的 Python 环境,它会导入本教程所需的每个程序库,并导出相应版本。
打开命令行,启动 Python 解释器:
Python
我建议你直接在解释器上工作,或者写出脚本后在命令