目录
数据分析流程:数据获取、数据处理、数据分析、数据可视化
Excel分析优势:
1、对单数据源(单表格)数据分析非常灵活,方便
2、操作简单,分析方法可复制性强,对业务方指导性强
Excel分析劣势:
1、对多数据源(多表格)数据分析时较为麻烦,低效率
2、对大数据量数据源分析时容易发生卡顿、报错
Python分析优势:
1、可读性文字编写的语言之一,学习难度较小
2、数据可视化、数据分析的工具包丰富,分析效率高
互联网数据分析的基本思路
一、描述性分析
通过计算数据的集中性特征和波动性特征以了解数据的基本情况。
-
数值分析
数量、平均数、极差(最大值和最小值的差值)、标准差、方差、极值
-
分布规律
均匀分布(掷筛子分布)、正态分布(人的身高分布)、长尾分布(网上店铺销售量分布)
长尾分布:
-
可视化方法
柱状图、条形图、散点图、饼状图
二、诊断性分析
深入挖掘问题根源,识别依赖关系,找出影响因子。
三、预测性分析
使用线性回归或逻辑回归的方法找到自变量与因变量之间的关系,并使用该关系等式预测因变量的变化。
线性回归
什么是回归以及线性回归,通俗的理解就是给定了一组数据,我们要找出一条能很好拟合这些数据的直线,找这条直线的过程就是线性回归,具体解释参考这篇博客:https://blog.csdn.net/alw_123/article/details/82193535
了解了什么是线性回归后,下面具体来看下找这条直线的过程,要把这条直线找出来我们只需要把这条直线的两个系数(斜率和截距)找出来即可,我们使用的方法是最小二乘法,具体过程如下图:其中表示真实值,
表示回归值,
和
表示平均值,
是这条直线的斜率,
是这条直线的截距,有了这两个系数后就能确定这条直线。
逻辑回归
逻辑回归就是将线性回归中的直线变成曲线,就是非线性回归。因变量的取值范围由线性回归的转变为[0,1]。
线性回归中是用回归值和真实值的差值来表示间距,那现在直线变为曲线后,就不能用这种方法了。逻辑回归中采用极大似然估计这种方式。
极大似然估计:
概率:是在已知一些概率分布参数的情况下,预测观测的结果。
似然:是用于在已知某些观测所得到的结果时,对观测结果所属的概率分布参数进行估值。
似然函数:将每个样本点的对应概率相乘就得到似然函数。
极大似然估计就是求使得似然函数最大的那个参数值
概率密度函数:用来描述某个随机变量取某个值得时候,取值点所对应的概率的函数
四、仿真模拟
利用数学仿真来模拟各种条件下产生的结果。