利用Python进行数据分析:准备工作
最近在做一个数据分析类项目,涉及处理7万+名学生的全学程数据,数据以表格型结构化数据为主,涉及学生基本信息、成绩和课程信息、评奖评优、勤工助学及行为数据。数据分析用到的Python编程主要参考了《利用Python进行数据分析》这本书。借此机会,对项目中频繁使用的Python DataFrame 数据分析语句进行梳理。
《利用Python进行数据分析》这本书的主要定位是介绍数据分析要用到的Python编程。其重点为Python编程、数据分析会使用到的Python库以及工具。
文章目录
重要的Python库
以下为Python科学计算生态系统中的重要库简介。其中,pandas是这本书的重点,基于其可以完成数据操作、准备、清洗等数据分析最重要的技能。
安装和设置(Windows)
推荐免费的Anaconda安装包。此外,书中使用的是Python 3.6,因此推荐选择Python 3.6或更高版本。
Windows
以下主要列出Windows上安装方法。
要在Windows上运行,先下载Anaconda安装包。推荐跟随Anaconda下载页面的Windows安装指导。
安装或升级Python包
通常,可以用以下命令安装:
conda install <package_name>
也可以使用pip包安装:
pip install <package_name>
用conda update
命令升级包:
conda update <package_name>
pip可以用--upgrade
升级:
pip install --upgrade <package_name>
Python编译器:Jupyter Notebook
切换虚拟环境
问题:在使用Anaconda创建了虚拟环境,如何在Jupyter Notebook中使用Python虚拟环境呢?
为了让Jupyter Notebook支持虚拟运行环境,需要在Anaconda里安装一个插件。
conda install nb_conda
安装成功之后,再打开Jupyter Notebook 即可以切换虚拟环境了。
在其他盘符打开Jupyter notebook
问题:通过ANACONDA.NAVIGATOR启动Jupyter Notebook,默认是在根目录下,如果希望在D盘或E盘新建或打开已有.ipynb文件该怎么办呢?
-
第一步:打开Anaconda Prompt
-
第二步:激活指定虚拟环境
conda activate [虚拟环境名称]
-
第三步:定位至指定盘符,比如下图是定位到D盘,直接输入
D:
之后回车即可 -
第四步:输入
jupyter notebook
回车即可
操作成功!
Jupyternotebook快捷键和命令
- 自动补全:
Tab
- 脚本导入到一个代码格中:
%load xxx.py
- 中断运行的代码:
Ctrl-C
- 集成Matplotlib:
%matplotlib inline
- 进入命令模式:
Esc
- 在命令模式下:
- 在当前单元格上方插入新单元格:
A
- 在当前单元格下方插入新单元格:
B
- 删除当前单元格:D+D(按两次键)
- 将当前单元格更改为标记:
M
- 将当前单元格更改为代码:
Y
- 选中多个单元格:
Shift+ up/down
- 单元格合并:选中后
Shift+ M
- 在当前单元格上方插入新单元格:
- 从命令模式返回编辑模式:
Enter
- 显示刚输入代码单元的对象的Docstring(文档):
Shift+Tab
- 执行代码:
Shift+Enter
(持续更新…)