人人都能学会数据分析-笔记

第01周 走进数据分析

1-1 互联网数据分析通用课程-导学

课程导学

随着互联网的发展,任何岗位都离不开数据分析

  • 互联网 => 数据 => 价值
  • 用户 => 网上购物 => 评价、购买量、价格
  • 产品 => 设计与优化 => 跟踪用户行为、监测数据
  • 运营 => 成交量 => 数据指标、有效营销手段

数据分析师,必须掌握的技能

硬技能 => 硬性数据处理和分析工具的使用
       => 电子表格 Excel
       => 数据库操作语言 SQL
       => 可视化面板 Tableau
       => 大数据处理分析 Python
软技能 => 对事物的认知方式、经验积累

  • A的价格比B的价格高
  • A的波动大于B,波动大风险就大
  • 行情下跌 vs 事件关系

课程优势

普适性
    运营、产品、市场或者销售
    数据分析的硬技能
    互联网行业经验
    => 细分行业、企业、商业模式
        运营策略、思维模型、业务指标
实战性
    真实的数据、案例
    第一阶段:大数据人才需求分析、销售情况分析
    第二阶段:用户行为、用户画像、营销渠道分析、留存转化
从0到1
    目标确定=>数据获取=>数据清洗=>数据探索=>洞察结论=>数据报告

期待你和我一起,用数据解析世界

1-2 从互联网数据分析说起

什么是互联网数据分析

互联网:

  • 信息传输的一种载体
  • 通过电子化的方式留存信息
  • 与传统线下基于实物的传输方式相对应

纸币、硬币

数字货币

数据分析:
    对数据的规律进行总结、提炼
    决策 

互联网 数据分析岗人才需求 => 线上 线下
招聘信息 => 统计职位数 => 同类比较

数据 => 生产材料

章节回顾

  • 互联网            => 线上的传输方式
  • 数据分析        => 利用数据规律进行决策
  • 互联网数据分析    => 对基于线上产生的数据进行分析

课后作业

以下哪个是基于互联网的数据分析:
A. 统计某产品线下调研结果
B. 分析某课程线上引流效果

2-1 什么是数据

从认识数据开始

认识数据

  • 数据分类
  • 统计指标
  • 分布形态
  • 数据分析流程
  • 常用数据分析工具

什么是数据

  • 数据是对事物的描述和记录

数据的特性

根据计量层次,进一步对数据进行分类
黄瓜、番茄、森林、书本,无法计算比较,计量层次低
1,2,3,4,5,这些数据可以计算比较,那么计量层次就高

定类数据

颜色:红色、白色、黄色
性别:男性、女性
职位:数据产品经理、数据运营、市场营销运营
按照类别属性进行分类,各类别之间是平等并列关系
这种数据不带数量信息,并且不能在各类别间进行排序
主要数值运算,计算每一类别中的项目的频数和频率

定序数据

受教育程度:小学、初中、高中、大学、硕士、博士
季度:春、夏、秋、冬
等级:合格、良好、优秀
定序数据之间可以进行排序、比较优劣
通过将编码进行排序,可以表示之间的高低差异

定距数据

温度:20、50、100
成绩:50、65、70、100
年龄:8、25、40、60
具有一定单位的实际测量值
定距数据的精确性比定类数据和定序数据更高
可以计算出各变量之间的实际差距(加、减)

定比数据

利润:10万、20万、30万
薪酬:3000、6000、9000、12000
用户数:210、3500、49000
可以比较大小,进行加、减、乘、除运算
定距尺度中,0表示数值,定比尺度中,0表示"没有"
定比数据中是存在绝对零点的,而定距数据不存在

定性、定量数据

定性数据(定类数据、定序数据)
是一组表示事物性质、规定事物类别的文字表述型
定类数据(定距数据、定比数据)
指以数量形式存在着的属性,并因此可以对其进行

数据矩阵/二维数据表

  • 数据属性、维度
  • 观测值、记录

章节回顾

什么是数据
数据的类型
    定类数据 => 定性数据
    定序数据 => 定性数据
    定距数据 => 定量数据
    定比数据 => 定量数据
数据矩阵是怎么组成的

课后作业

对应的是什么数据类型

定性:姓名、性别、职业
定量:用户标识、年龄、薪酬

2-2 什么是统计指标

为什么要学习统计指标

  • 技能
  • 薪酬水平
  • 工作年限
  • 业务背景

  • 汇总
  • 处理
  • 计算

什么是统计指标

  • 体现总体数量特征的概念和数值
  • 根据数据分析的目的不同,统计指标也会变化

房屋设计:建筑面积、竣工面积、技术装备率
提升用户转化率:网站浏览量、着陆页、跳失率
选择理财产品:往期业绩、风险系数、年化收益

总量指标

GDP(国内生产总值)
总人口 => 总和(SUM)
销售总额

  • 特定条件下的总规模、总水平或工作总量
  • 是一种最基本的统计指标

平均指标

用一个数字显示其一般水平
=> 集中趋势指标

相对指标

  • 两个有联系的现象数值相比得到的比率
  • 描述的是相对关系,而不是总体情况

比例、比率、倍数

  • 比例 = 各数据/总比 %
  • 1:2:3:...:10:11:12
  • 比率 = 数据项:数据项
  • 年末/年初 = 12
  • 倍数 突出上升、增长幅度
     

环比、同比

近2个月的销售情况?

环比增长率:
(本期数-上期数)/上期数*100%
(12000-11000)/11000 = 9.09%

  • 同比增长率:
  • (本期数-同期数)/同期数*100%
  • (3450-2300)/2300 = 50%

环比更注重短期的涨幅表现
同比更注重长期的

章节回顾

  • 总量指标:描述总体估摸的
  • 相对指标:部分与整体关系
  • 平均指标(集中趋势):数据一般水平

课后作业

1、今年销售总额
2、每月占总销售的比例
3、平均每月销售额

2-3 统计指标:集中趋势

集中趋势指标的特点

哪个营销渠道引流效果最佳?
什么岗位的薪酬水平最高?        => 平均值
哪个产品最受欢迎?
……                                => 初步结论

什么是集中趋势指标

  • 用于体现数据一般水平的指标
  • 最快速了解样本数据的概况
  • 最常用的集中趋势指标就是平均值

平均值

  • = 所有数据相加/数据的个数
  • 加和:151100
  • 平均值:16789
  • 去除异常值:10762
  • 差异:6026
  • 具有一定误导性,对异常数不敏感

中位数

  • 按顺序排列后,居于中间位置的数
  • 奇数:位于(n+1)/2位置的数
  • 偶数:最中间的两位数相加/2
  • 更具有代表性

众数

  • 出现次数最多的数值
  • 反应的是局部特征、密集度
  • 众数可以有多个

章节回顾

  • 平均值:黄线
  • 中位数:绿线
  • 众数:蓝线

课后作业

1、计算平均值、中位数、众数
2、哪一组薪酬水平更高

2-9 本章小结

数据的基本特征

什么是数据

  • 数据类型
  • 集中趋势 分布形态
  • 离散趋势 异常值

数据分析有哪些内容 

数据分析流程

数据分析技能

2-4 统计指标:离散趋势

什么是离散趋势指标

  • A(蓝线):10.22 ~ 10.88
  • B(橙线):10.22 ~ 11.43
  • 股票B比股票A更离散

体现内部差异度的指标

  • 极差
  • 平均差
  • 标准差

极差

  • 相距最远的两个点之间的距离
  • 极差 = 最大值 - 最小值 = 1.55
  • 数据内部最大的差异情况

平均差

  • 一组数据与平均值差异 

  • 数据项与平均值的差距越大
  • 数据越分散,反之越集中

  • 股东回购、政策利好、供需失衡
  • 事件驱动型的数据,在样本量较小的时候,容易导致误差
  • 对离散值更敏感

标准差

  • 优化过的更能代表离散程度的指标

  • 更直观的了解差异程度
  • 最常用的离散指标

章节回顾

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值