目录
1.1数据分析概述
从语义构成来看,数据分析包括“数据”和“分析”两个完全独立的词语,“数据”是关键词,“分析”是用来提取数据价值的动作。
数据分析是企业了解业务进展、用户习惯以及提升资源价值的关键手段。
1.1.1 数据分析流程
数据分析并不是对数据进行单一的操作处理,它指的是对数据使用的一个全流程,包括数据采集、数据预处理、数据存储、数据处理与分析、数据可视化和基于业务的数据分析报告。
数据分析流程也可概括以下四步:
步骤一:数据采集。随着各行各业数字化转型升级,传统的线下数据采集方式越来越少,更多的是采.用线上问卷、运营平台埋点采集、数据库抽取以及网络爬虫等手段。
步骤二:数据整理和存储。采集到的数据通常存在各种问题,如数据格式不对、数据重复值过多、数据缺失明显、异常数据等。此时需要对这些数据源里的问题进行处理,对数据进行清洗和整理,最终获得可直接使用的干净数据。清洗后的数据或者以文件形式存储,或者采用数据库的形式。
步骤三:数据分析和可视化。数据分析是为了数据进行特征规律总结,从各个业务维度去考虑数据的分布情况和趋势。数据分析结果可以结合一些可视化图表来呈现。
步骤四:数据报表和总结。数据报表是数据分析结果最终的呈现方式,要求报表线上简单明了、数据直观清晰。
1.1.2 数据分析层次
描述性分析:发生了什么。主要是对情景发生的事实数据做出准确的描述。
诊断性分析:为什么会发生。明确到底发生了什么很有用,但是更重要的是明白为什么发生。
预测性分析:可能会发生什么。寻找相关特征和运行逻辑规律,借助定量和定性分析的分析实现预测。
处方性分析:该做些什么。有了预测性分析的结果后,连未来怎么做都已经规划好了,这已经上升到战略层面引领业务发展,这是数据分析最高层次。
1.2 python语言编程基础
1.2.1 语法基础
(1)变量
变量是值可以改变的量,可以理解为一个容器。这个容器里面存放的内容是可以发生改变的。Python在变量类型定义方面没有强制性要求。
(2)标识符
标识符用于标识某个符号或者东西的名字,可以理解为命名方式。在Python中用来命名变量、函数、类、数组、字典、文件、对象等多种元素。
标识符命名需要满足下列规则:
只能由字母、数字和下划线组成,而且不能以数字开头。
不能使用Python的关键字。
长度不能超过255个字符。
(3)数据类型
数据主要包括整型、浮点型、字符串、布尔型等。在Python中可以使用type()方法来查看变量类型。
(4)输入与输出
在Python中,使用input方法实现键盘端的输入,同时将输入的内容赋值给一个变量。输出则是使用print方法。
1.2.2 数据结构基础
数据结构就是用来存储数据的容器。数据应该按照某种规则放进这个容器,并且按照某种规则从容器里取出数据。Python最常用的两种数据结构是顺序结构和映射结构。
顺序结构是指元素之间是有顺序的结构。列表是顺序结构的一种,而且列表中的每个元素最多只有一个前驱和一个后驱。
映射结构就是把一个值映射到另外一个值的结构。Python中的字典就是一个映射结构,由“键"和“值”构成。
1.3 数据分析模块
1.3.1 NumPy模块
支持大量的多维数组与矩阵计算,也针对数组运算提供大量的数学函数库。
1.3.2 pandas模块
pandas是基于NumPy构建的数据分析库,但它比NumPy有更高级的数据结构和分析工具,如Series类型、DataFrame类型等。
1.3.3 Matplotlib/Seaborn模块
在数据分析流程中,结果的呈现是非常重要的步骤。美观规范的图表会让客户直观、快速地了解数据变化的趋势,找到有关数据变化的原因。
1.3.4 其他模块
(1)SciPy模块
处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。
(2)Stasmodels模块
用于估计许多不同统计模型以及进行统计测试和统计数据探索的类和函数。
(3)Scikit-Learn模块
是针对Python编程语言的免费软件机器学习库。它具有各种分类,回归和聚类算法。