机器学习是计算机科学、人工智能和统计学的研究领域。机器学习的重点是训练算法以学习模式并根据数据进行预测。机器学习特别有价值,因为它让我们可以使用计算机来自动化决策过程。
在本教程中,您将使用Scikit-learn(Python的机器学习工具)在Python中实现一个简单的机器学习算法。您将使用Naive Bayes(NB)分类器,结合乳腺癌肿瘤信息数据库,预测肿瘤是恶性还是良性。
在本教程结束时,您将了解如何使用Python构建自己的机器学习模型。
准备
要完成本教程,您需要:
- Python 3 本地编程环境
- 在virtualenv中安装Jupyter Notebook。Jupyter Notebooks在运行机器学习实验时非常有用。您可以运行短代码块并快速查看结果,从而轻松测试和调试代码。
第一步 - 导入Scikit-learn
让我们首先安装Python模块Scikit-learn,这是Python 最好、文档记录最多的机器学习库之一。
要开始我们的编码项目,先要激活我们的Python 3编程环境。确保您位于环境所在的目录中,然后运行以下命令:
$ . my_env/bin/activate
激活我们的编程环境后,检查是否已安装Sckikit-learn模块:
(my_env) $ python -c "import sklearn"
如果sklearn已安装,则此命令将完成且没有错误。如果未安装,您将看到以下错误消息:
Traceback (most recent call last): File "<string>", line 1, in <module> ImportError: No module named 'sklearn'
错误消息表明sklearn未安装,因此请使用pip下载库:
(my_env) $ pip install scikit-learn[alldeps]
安装完成后,启动Jupyter Notebook:
(my_env) $ jupyter notebook
在Jupyter中,创建一个名为ML Tutorial的新Python Notebook。在Notebook的第一个单元格,输入sklearn模块:
ML Tutorial
imp