数据分析概述

目录

互联网数据分析的基本思路

一、描述性分析

数值分析

分布规律

可视化方法

二、诊断性分析

 三、预测性分析

 线性回归

 逻辑回归

四、仿真模拟


数据分析流程:数据获取、数据处理、数据分析、数据可视化

Excel分析优势:

1、对单数据源(单表格)数据分析非常灵活,方便

2、操作简单,分析方法可复制性强,对业务方指导性强

Excel分析劣势:

1、对多数据源(多表格)数据分析时较为麻烦,低效率

2、对大数据量数据源分析时容易发生卡顿、报错

Python分析优势:

1、可读性文字编写的语言之一,学习难度较小

2、数据可视化、数据分析的工具包丰富,分析效率高


互联网数据分析的基本思路

一、描述性分析

通过计算数据的集中性特征和波动性特征以了解数据的基本情况。

  • 数值分析

数量、平均数、极差(最大值和最小值的差值)、标准差、方差、极值

  • 分布规律

均匀分布(掷筛子分布)、正态分布(人的身高分布)、长尾分布(网上店铺销售量分布)

长尾分布:

  • 可视化方法

柱状图、条形图、散点图、饼状图

二、诊断性分析

深入挖掘问题根源,识别依赖关系,找出影响因子。

 三、预测性分析

使用线性回归或逻辑回归的方法找到自变量与因变量之间的关系,并使用该关系等式预测因变量的变化。

 线性回归

什么是回归以及线性回归,通俗的理解就是给定了一组数据,我们要找出一条能很好拟合这些数据的直线,找这条直线的过程就是线性回归,具体解释参考这篇博客:https://blog.csdn.net/alw_123/article/details/82193535

了解了什么是线性回归后,下面具体来看下找这条直线的过程,要把这条直线找出来我们只需要把这条直线的两个系数(斜率和截距)找出来即可,我们使用的方法是最小二乘法,具体过程如下图:其中y_{i}表示真实值,\widehat{y_{i}}表示回归值,\bar{y}\bar{x}表示平均值,\widehat{\beta _{1}}是这条直线的斜率,\widehat{\beta _{0}}是这条直线的截距,有了这两个系数后就能确定这条直线。

 逻辑回归

逻辑回归就是将线性回归中的直线变成曲线,就是非线性回归。因变量的取值范围由线性回归的\left [ -\infty ,\infty \right ]转变为[0,1]。

线性回归中是用回归值和真实值的差值来表示间距,那现在直线变为曲线后,就不能用这种方法了。逻辑回归中采用极大似然估计这种方式。

极大似然估计:

概率:是在已知一些概率分布参数的情况下,预测观测的结果。

似然:是用于在已知某些观测所得到的结果时,对观测结果所属的概率分布参数进行估值。

似然函数:将每个样本点的对应概率相乘就得到似然函数。

 极大似然估计就是求使得似然函数最大的那个参数值\widehat{\theta }

 概率密度函数:用来描述某个随机变量取某个值得时候,取值点所对应的概率的函数

四、仿真模拟

利用数学仿真来模拟各种条件下产生的结果。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值