python数据分析

数据分析介绍

数据分析概念及知识点

什么是数据分析:

数据分析是使用适当的统计分析方法对收集来的大量数据进行分析,提取用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的目的有多种,概括起来有三种:现状分析、原因分析、预测分析。现状分析简单来说就是告诉你过去发生了什么。原因分析简单来说就是告诉你某一现状为什么发生。预测分析简单来说就是预测未来会发生什么。

数据分析步骤:

数据分析主要有六个过程:

  1. 需求明确:明确数据分析的目标,为后面的过程做好铺垫
  2. 数据收集:通过爬虫、商务合作的方式,获取想要的数据
  3. 数据处理:对获取来的数据进行处理和清洗,把不需要的剔除掉,把需要的加工成我们想要的,方便后面的分析
  4. 数据分析:根据自己的目的,以及现有的数据确定好分析方法
  5. 数据展现:将数据按照确定好的分析方法进行展示出来。
  6. 撰写报告:将分析的结果通过图表和文字的方式形成报告文档。

数据分析的误区:

  1. 分析目的不明确,为分析而分析:一定要找准自己分析数据的目标而去分析,比如是要了解现状,还是找出原因,还是预测未来发展等,千万不要为了分析而分析这样就偏离了主题。
  2. 缺乏业务知识,分析结果偏离实际:分析数据的时候,一定要和公司的业务结合起来,如果脱离业务,即使数据分析方法在牛逼,图表再优美,也无济于事。
  3. 追求高级分析方法:一些人喜欢用一些高级的分析方法,认为只有这样才能体现专业性,其实高级的分析方法不一定是最好的,能够简单的有效的解决问题的方法才是最好的。

数据分析方法和工具:

数据分析可以通过工具,也可以通过代码实现,以下分别列出这些常用的:

  1. 工具:Excel、Tableau、SPSS、百度图说
  2. 编程:python语言、R语言、数据库的SQL语言、Excel的VBA语言等

工具和代码该怎么选:

两者没有好坏之分,只有合适之分,数据分析总体来讲有两个模块,一个是数据处理,一个是可视化。如果数据已经经过处理了,并且手头上的统计可以直接非常方便的做可视化处理,那么我们用软件来实现就可以。如果数据没有经过处理,那么最好用python或者R语言对数据进行一些处理,然后再通过软件可视化。或者软件的可视化无法满足我们的要求,那么可以通过代码来实现,总而言之,工具功能无法100%的满足你的要求,但效率高,代码数据处理比较好,但数据可视化比较繁琐,可DIY属性强。

Anaconda:

Anaconda(水蟒)是一个捆绑了Python、conda、其它相关依赖包的一个软件,包含了180多个可学计算包及其依赖。Anaconda3是集成了python3的环境,Anaconda2是集成了python2的环境。Anaconda默认集成的包,是属于内置的python包,并且支持绝大部分操作系统(比如:Windows、Mac、Linux等)。下载地址如下:https://www.anaconda.com/distribution/(如果官网下载太慢,可以在清华大学开源软件中载:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/)。根据自己的操作系统,下载相应的版本,因为Anaconda内置了许多包,所以安装过程需要耗费相当长的时间,大家安装的时候需要耐心等待,在安装完成以后,会有以下几个模块:Anaconda prompt、Anaconda Navigator、Spyder、jupyter notebook,以下分别做一些介绍:

Anaconda prompt:

Anaconda prompt是专门用来操作anaconda的终端,如果你安装了Anaconda后没有在环境变量的PATH中添加相关的环境变量,那么以后你想在终端使用anaconda相关命令,则必须要在Anaconda prompt中完成。

Anaconda Navigator:

这个相当于一个导航面板,上面组织了Anaconda相关的软件

Spyder:

一个专门开发python的软件,熟悉MATLAB的同学会比较有亲切感,后期不会使用这个工具写代码因为还有更好的可替代的工具。

jupyter notebook:

一个python编辑环境,可以实时的查看代码的运行效果

使用jupyter notebook的姿势:

  1. 先打开Anaconda prompt,然后进入到项目所在的目录。
  2. 输入命令jupyter notebook打开jupyter notebook浏览器

conda基本使用:

conda伴随着Anaconda安装而自动安装的。conda可以跟virtualenv一样管理不同的环境,也可以跟pip一样管理某个环境下的包

环境管理:

conda能跟virtualenv一样管理不同的python环境,不同的环境之间是互相隔离的,互不影响的,为什么需要创建不同的环境了?原因是有时候项目比较多,但是项目依赖的包不一样,比如A项目用的python2开发的,而B项目用的是python3开发的,那么我们在同一台电脑上就需要两套不同的环境来支撑他们运行了。

Jupyter notebook使用:

常用快捷键:
命令模式(按ESC键):

  1. Enter:转入编辑模式
  2. Shift+Enter:运行本单元,选中下一个单元
  3. Ctrl+Enter:运行本单元
  4. Alt+Enter:运行本单元,在其下插入新单元
  5. Y:单元转入代码状态
  6. M:单元转入Mardown状态
  7. R:单元转入raw状态
  8. 1:设定一级标题
  9. A:在上方插入新单元
  10. B:在下方插入新单元
  11. S:文件存盘
  12. H:显示快捷键帮助
  13. L:转换行号
  14. O:转换输出
  15. C:复制选中单元
  16. D:删除选中单元

注意事项:

jupyter notebook运行原理是把所有运行的变量存储在内存中,所以后面的cell中的代码块修改了之前cell中的值,那么重复运行cell,可能会得不到预期的结果,也有可能会报错。解决方案是点击一下>>两个箭头的按钮,让它重新从第一个cell运行一下。
比如:

# 第一个cell中的代码
a = 10
b = 20

# 第二个cell中的代码
c = a/b
b = 0
# 当第二次运行时会报错,会报除0的异常。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值