数据分析概述

数据分析概述

数据分析流程

  • 数据分析 = 数据思维 + 分析工具

    思维:方法论(各种分析法)、统计学知识(描述性统计+推断性统计)

    工具:SQL、HQL、Python、Excel、PowerBI、Tableau、fineBI、神策等

  • 狭义的数据分析:对数据进行分析,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

  • 广义的数据分析:广义的数据分析还包含了数据挖掘的部分,不仅要通过数据实现对业务的监控和分析,还要利用机器学习算法,找出隐藏在数据背后的知识,并利用这些知识为将来的决策提供支撑。

  • 基本数据分析工作的内容(仅供参考)
    1.确定目标(输入) :理解业务,确定指标口径;
    2.获取数:数据库、电子表格、三方接口、网络爬虫、开放数据集、…
    3.清洗数据:缺失值处理、异常值处理、格式化处理、数据变换、归-化、离散化、…
    4.探索数据:运算、统计、分组、聚合、可视化(趋势、变化、分布等)、…
    5.数据报告(输出):数据发布,工作成果总结汇报
    6.分析洞察(后续):解释数据变化、支持数据决策、…

  • 深入数据挖掘工作的内容(仅供参考)
    1.确定目标(输入):理解业务,明确挖掘目标
    2.数据准备:数据采集、数据描述、数据探索、质量判定、
    3.数据加工:提取数据、清洗数据、数据变换、归一化、离散化、特殊编码、降维、特征选择、…
    4.数据建模:模型比较、模型选择、算法应用、…
    5.模型评估:交叉检验、参数调优、结果评价、…
    6.模型部署(输出):模型落地,业务改进,运营监控、报告撰写

安装和使用Anaconda

下载官网
![在这里插入图片描述](https://img-blog.csdnimg.cn/4e60f5996b1a4c928d12375a7cea591c.png
在这里插入图片描述
在这里插入图片描述

安装过程可以看网上教程

安装成功后打开将会出现:
在这里插入图片描述

数据分析的相关库

三大神器

  • NumPy:Numpy最核心的数据类型是ndarray,它代表了多维数组,可以用于数据的存储和运算。ndarray不仅功能强大,而且在效率是远远优于Python中的list的。
  • Pandas:它提供了Series, DataFrame和Index三种核心数据类型, 前面两个分别用于处理一维和二维的数据,后者为它们提供索引服务。
  • Matplotlib:matplotib是一个包含各种绘图模块的库,能够根据我们提供的数据创建高质量的图形。
  • 其他的相关库:SciPy、Seaborn、Scikit-learn、Statsmodels

使用Notebook

安装和启动notebook

  • 在命令提示符中运行

安装notebook:

如果未安装国内镜像先输入
pip config set global.index-url https://pypi.doubanio.com/simple

pip install jupyter notebook

安装三大神器:

pip install numpy pandas matplotlib

运行notebook:

jupyeter notebook

运行后,将会打开以下页面
在这里插入图片描述
在这里插入图片描述

使用技巧

  1. 自动补全:按Tab键会获得代码提示;
  2. 获取帮助:在一个对象(变量、类、函数等)后加?,如:range?
  3. 搜索命名:使用通配符*并配合?进行搜索,如:np.*sin?
  4. 调用命令:可以在Notebook中使用!后面跟系统命令的方式来执行系统命令。
  5. 魔发指令
    在这里插入图片描述
  6. 快捷键
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值