文章目录
数据分析准备
1. 什么是数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的目的有多种,概括起来有三种:现状分析、原因分析、预测分析。现状分析简单来说就是告诉你过去发生了什么。原因分析简单来说就是告诉你某一现状为什么发生。预测分析简单来说就是预测未来会发生什么。
1.1 数据分析步骤
- 需求明确:明确做数据分析的目标,为后面的分析过程做好铺垫。
- 数据收集:通过爬虫、商务合作的方式,获取想要的数据。
- 数据处理:对获取来的数据进行处理和清洗,把不需要的剔除掉,把需要的加工成我们想要的,方便后面的分析。
- 数据分析:根据自己的目的,以及现有的数据确定好分析的方法。
- 数据呈现:将数据按照确定好的分析方法进行展示出来。
- 撰写报告:将分析的结果通过图表和文字的方式形成报告文档。
1.2 数据分析的误区
- 分析目的不明确,为分析而分析:一定要找准自己分析数据的目标而去分析,比如是要了解现状,还是找出原因,还是预测未来发展等。
- 缺乏业务知识,分析结果偏离实际:分析数据的时候,一定要和公司的业务结合起来,如果脱离业务,即使数据分析方法再好,图表再优美,也无济于事。
- 追求高级分析方法:一些人喜欢用一些高级的方法,认为只有这样才能体现专业性,其实高级的数据分析方法不一定是最好的,能够简单有效的解决问题的方法才是最好的。
1.3 数据分析的方法和工具
- 工具:Excel、Tableau、SPSS、百度图说等
- 编程:Python,R,SQL,VBA
1.4 工具与代码的选择
两者没有好坏之分,只有合适之分,数据分析总体来讲有两个模块:一个是数据处理,一个是可视化。如果数据已经处理过了,并且手头上的软件可以直接非常方便地做可视化处理,那么我们用软件来实现就可以。如果数据没有经过处理,那么最好通过Python或者R对数据进行一些处理,然后再通过软件可视化,或者软件的可视化无法满足我们的需求,那么可以通过代码实现。总而言之,工具功能上无法100%满足你的需求,但是效率高;代码做数据处理比较好,数据可视化比较繁琐,但是DIY属性强!
2. 环境搭建
采用Anaconda
软件,使用jupyter lab的姿势:
- 先打开
Anaconda Prompt
,然后进入到项目所在的目录。 - 输入命令
jupyter lab
,打开jupyter lab
浏览器。
2.1 调整工作路径
键入E:
,跳转后,键入cd
,并复制创建好的文件夹路径至cd
末尾处,即可在当前文件夹中创建虚拟环境。
2.2 jupyter lab常用快捷键
Jupyter Lab 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本,这时的单元框线是蓝色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。
命令模式 (按键 Esc 开启) 编辑模式(按键 Enter 切换)
:
编辑模式截图
:
按Esc开启命令模式截图
:
按Enter键切换成编辑模式截图
:
快捷键
:
Shift-Enter : 运行本单元,选中下个单元
Ctrl-Enter : 运行本单元
Alt-Enter : 运行本单元,在其下插入新单元
Y : 单元转入代码状态(命令模式下)
M :单元转入markdown状态(命令模式下)
R : 单元转入raw状态
1 : 设定 1 级标题
2 : 设定 2 级标题
3 : 设定 3 级标题
4 : 设定 4 级标题
5 : 设定 5 级标题
6 : 设定 6 级标题
Up : 选中上方单元
K : 选中上方单元
Down : 选中下方单元
J : 选中下方单元
Shift-K : 扩大选中上方单元
Shift-J : 扩大选中下方单元
A : 在上方插入新单元
B : 在下方插入新单元
X : 剪切选中的单元
C : 复制选中的单元
V : 粘贴到下方单元
Z : 恢复删除的最后一个单元
D,D : 删除选中的单元
Shift-M : 合并选中的单元
Ctrl-S : 文件存盘
S : 文件存盘
L : 转换行号
O : 转换输出
Shift-O : 转换输出滚动
Esc : 关闭页面
Q : 关闭页面
H : 显示快捷键帮助
Shift : 忽略
Shift-Space : 向上滚动
Space : 向下滚动
编辑模式 ( Enter 键启动)
Tab : 代码补全或缩进
Shift-Tab : 提示
Ctrl-] : 缩进
Ctrl-[ : 解除缩进
Ctrl-A : 全选
Ctrl-Z : 复原
Ctrl-Shift-Z : 再做
Ctrl-Y : 再做
Ctrl-Home : 跳到单元开头
Ctrl-Up : 跳到单元开头
Ctrl-End : 跳到单元末尾
Ctrl-Down : 跳到单元末尾
Ctrl-Left : 跳到左边一个字首
Ctrl-Right : 跳到右边一个字首
Shift-Enter : 运行本单元,选中下一单元
Alt-Enter : 运行本单元,在下面插入一单元
Ctrl-Enter : 运行本单元
Ctrl-Shift-- : 分割单元
Ctrl-S : 文件存盘
Up : 光标上移或转入上一单元
Down :光标下移或转入下一单元
使用Tab
键补全代码功能截图如下:
补全代码功能
使用shift+tab
键函数使用提示如下:
函数使用提示