1.2.1 Anaconda介绍
Anaconda是一种面向数据科学的基于Python语言的开源性软件平台,完整包含了机器学习所需的软件包,包括NumPy、SciPy、Pandas、Matplotlib和scikit-learn等。包是关于函数、数据集、编译器、运算工具等的集合。此外Anaconda也包含了iPython Notebook,这是一个Python编程的交互式环境。通过Anaconda平台编写Python程序的过程,就是通过创建Python对象组织数据,通过调用系统函数、创建并调用自定义函数,逐步完成数据科学各阶段任务的过程。迄今为止,收集了大约720个开源包,涵盖了各类现代统计和数据科学计算方法,使用对象包括商业分析师、数据科学家、数据工程师及开发人员等。使用者可根据自身的研究目的,有选择地自行指定下载、安装和加载。
1.2.2 如何获得Anaconda
可从Anaconda的主站点www.continuum.io上免费下载该软件。Anaconda支持在Windows、Linux、Mas OS X操作系统上运行,用户可根据不同情况选择不同的链接。如选择Anaconda 4.3.0 For Windows表示下载运行于Windows操作系统下的Python,显示窗口如图2所示。
鼠标单击Installer,下载可执行文件。Python的版本不同,可执行文件名会有差别。在Python发展过程中,形成了Python2.x和Python3.x两个版本,目前正朝着Python3.x进化。Python2.x和Python3.x两个版本是不兼容的,由于历史原因,原有大量第三方函数模块是用2.x版实现的,这些代码要修改后才能在3.x上运行。3.x版本体现了Python的发展,而且近年来Python3.x下的第三方函数模块日渐增多,本书选择Windows64位操作系统下的Python3.x版本作为程序实现环境,计算机作为机器学习工具,为提高其运算能力,建议下载64位安装包程序(笔者利用32位程序做测试时,经常出现内存溢出导致其运算崩溃)。
1.2.3 Anaconda如何起步
1 启动界面
安装好Anaconda后,通过Windows开始程序菜单找到Anaconda程序列表启动Anaconda Prompt项,在运行的Shell界面键入ipython notebook命令会启动服务器,并打开浏览器。如下图所示。
2 操作环境
启动Anaconda Prompt后,显示命令对话框,如图所示。
在命令对话框输入以下命令,并按回车键启动IPython Notebook,如图所示。
IPython Notebook使用浏览器作为界面,向后台的IPython服务器发送请求,并显示结果,比原本Python命令进入的交互式环境要强大很多,在科学计算、Python教学等领域有较多的应用。IPython启动后会自动读取该目录下面的.ipynb文件并显示(首次打开目录列表为空),如图所示。
点击”New”展开下拉列表,点击”Python 3”新建一个.ipynb文件。如图所示。
在浏览器界面中运行的ipynb文件使用单元Cell保存各种信息。Cell有多种类型,经常使用的有表示格式化文本的Markdown单元,和表示代码的Code单元。如图所示。
3 输入代码并输出结果
每个Code单元都有一个输出区域,在Code单元中输入Python指令,按 Shift-Enter键运行此代码,代码块中最后一个表达式的值将在输出区域显示,如图所示。
代码中也可以使用print函数在输出区域中显示信息,如图所示。