1. 用Python搭建数据科学环境
今天,在本篇Python数据科学教程中,我们将看到Python的数据科学环境设置。此外,我们将告诉你数据科学环境设置需要安装的所有内容,如Python、Anaconda、Miniconda。除此之外,我们还将看到如何为Data Science Environment Setup设置虚拟环境,以及导入Data Science Packages。今天,我们将指导您设置机器,以便您可以开始您的数据科学之旅。 在你开始之前,我们建议你先阅读一下Python数据科学入门,以便你回来的时候,事情变得更加流畅。
那么,让我们开始Python数据科学环境设置。
2. 安装Python
在此之前,你应该先在你的机器上安装Python。你可以参考《在Windows上安装Python的分步指南》。
虽然2.7被广泛采用,但3.x将接管未来,并且已经开始留下它的痕迹。除此之外,有些软件和功能并不向后兼容。所以,请自行选择吧。
3. 获取Anaconda的数据科学环境设置
Python数据科学环境设置
数据科学环境设置--安装Anaconda
Anaconda是一个用于数据科学和机器学习的Python发行版。它是免费和开源的,使管理和部署包变得简单。
它有1000多个数据科学包和Conda包。它自带的其他工具有核心Python、IPython等。
a. Anaconda导航仪
Anaconda 随附了一个虚拟环境管理器--Anaconda Navigator。这是一个桌面GUI,可以让你启动应用程序和管理包、环境和conda的通道。这让你可以绕过命令行命令。导航器在Anaconda云上或Anaconda的本地仓库中搜索一个包,并安装、运行和更新它们。它有以下应用程序
- Glueviz
- Jupyter Notebook
- JupyterLab
- Orange 3 App
- VSCode
- RStudio
- Rodeo
- Spyder
- QTConsole
Anaconda会给你两个包管理器--pip和conda。当一些包在conda中不可用时,你可以使用pip来安装它们。请注意,使用 pip 来安装 conda 也可用的包可能会导致安装错误。
b. 安装Anaconda
要下载Anaconda发行版,你可以使用官方下载页面。
Anaconda | Individual Edition
在这里,你可以选择你的平台,然后选择安装程序。为此,你可以选择你想要的版本,以及是32位还是64位。
要使用conda安装软件包,你可以使用下面的命令-
conda install scipy
4. 安装Miniconda
Miniconda是conda的最小化安装程序;一个小型的Anaconda的引导版本。它是免费的,并与conda、Python以及pip和zlib等包一起发布。这让你可以从conda中安装超过720个包。由于Miniconda是Anaconda的轻量版,它可以让你下载得更快。
要安装Miniconda,你可以进入下面的页面--。
Miniconda - Conda documentation
在这里,选择你的平台,然后根据你的机器需求,选择32位或64位的安装程序。
5. 设置虚拟环境
既然,我们在这里谈的是用Python建立一个数据科学环境,那么我们就来了解一下什么是虚拟环境。好吧,虚拟环境可以让我们用我们想要的包,或者根据项目的需要,创建不同的Python版本。这样的环境可以帮助我们确保包的版本和Python及其包管理器的版本之间没有冲突。你应该看看这篇关于如何创建Python虚拟环境并安装包的博客。
现在,让我们看看如何用 Anaconda 创建一个虚拟环境。在 Anaconda 提示符中使用下面的命令----。
这应该能让你了解Anaconda提示的样子。现在,要激活这个环境,你可以键入-
conda activate demo
这让你开始使用它。现在要停用它,请尝试
conda deactivate
下面的命令告诉你所有存在的环境;星号(*)标志着当前的环境。
conda info -e
6. 重要的Python数据科学软件包
在数据科学工作中,在1000多个可用的软件包中,你将需要一些能让你实现基本功能的软件包。让我们快速看看其中的一些包。
a. NumPy
正如前面充分讨论过的,NumPy可以让你处理大型的、多维的数组和矩阵。为了对这些进行操作,它还为我们提供了各种高级数学函数。
b. SciPy
Scipy是一个用于科学和技术计算的Python库,是免费和开源的。SciPy的模块包括那些用于
- Optimization
- Linear algebra
- Integration
- Interpolation
- Special functions
- FFT
- Signal and Image processing
- ODE solvers
c. Matplotlib
到目前为止,我们已经使用Matplotlib绘制了许多我们需要开始可视化的数字。其中一些是气泡图和散点图。这是一个带有Python的绘图库,并且扩展了NumPy。通过面向对象的 API,它可以让你将绘图嵌入到应用程序中。为此,它使用了 Tkinter、Qt、GTK+ 和 wxPython 等 GUI 工具箱。
d. Pandas
我们已经学习了大量的Pandas教程。pandas是Python的一个软件库,它应该是为数据操作和分析服务的,它是免费的,可以让你使用数据结构和操作来操作数字表格和时间序列。它是免费的,可以让你使用数据结构和操作来操作数值表和时间序列。
e. scikit-learn
scikit-learn是一个Python的软件机器学习库。它是免费的,并提供了不同的分类、回归和聚类算法
- Support Vector Machines
- Random forests
- Gradient boosting
- K-means
- DBSCAN
我们通常将它与NumPy和SciPy一起使用
f. Seaborn
最后,seaborn是一个Python的可视化库,基于matplotlib。它可以让我们以统计学的方式进行数据可视化,并提供高级界面,从而产生有吸引力的图形。
7. 如何获得Jupyter笔记本?(我们也可以用jupyter lab)
正如我们前面所看到的,Jupyter Notebook自带Anaconda。要运行它,你可以进入你的虚拟环境,然后输入以下内容--。
jupyter notebook
你也可以用pip-
python3 -m pip install --upgrade pip.
python3 -m pip install jupyter
笔记本的样子是这样的
你可以在 http://localhost:8888/ 找到这个。
现在要在这里运行Python,你可以创建一个新文件。它看起来像这样-
您可以使用右上角的注销按钮退出。
让我们修改一下Python Array模块
那么,这就是用Python进行数据科学环境设置的全部内容。希望大家喜欢我们的讲解。
8. 结论:数据科学环境设置
因此,在本篇Python数据科学环境设置教程中,我们讨论了数据科学环境设置需要安装的所有内容。此外,我们看看Python包,如Numpy、Scipy、matplotlib。至此,我们结束了我们的数据科学环境设置教程,关于如何为数据科学设置机器。不过,如果有任何关于Python数据科学环境设置的疑问,欢迎在下面的评论中提出你的问题。