笔记来自哔哩哔哩up主戴师兄数分视频~
1、什么是数据分析
观测:对事物形成客观量化的认知(获取数据并制作报表、图表、仪表盘)
实验:通过不断的提出假设、实践假设,并且基于观测的数据去验证这些假设,目的是准确得知哪些方法可以有效地朝着人为设定的方向去发展
应用:在实际的生产环境下,使用实验已经得到的技术和方法,并且基于数据去不断的迭代和反馈。目的是用实验得到的新方法有效地去提升生产力,真正应用到生产中去创造价值。
2、实现三大步骤的各种方法
观测:
1)采集数据:
解析系统日志、埋点获取新数据、通过传感器采集(天气、手环)、爬虫(解析网站、抓取数据)、API(API平台文档—>用API获取数据)
2)存储数据:各种类型的数据库:hive、MySQL、PostgreSQL、SQLServer、Presto、Impala……(数据工程师)
3)展示数据:可视化高效传达信息
分析数据的目的:及时发现异常、找到数据之间的因果关系
因为数据是客观统一的,有统一的认知才能有共同的目标
4)设定标准+发现异常:要知道怎样数据是正常的,才能发现异常
5)研究关系:可视化查看相关性、建模推导相关性