数据分析基础

数据分析是数学、统计学理论结合科学的统计分析方法。

数据分析概述

数据分析主要是指对数据库中的数据、excel表、网页爬取数据、收集的数据进行分析,从而形成有价值的结论并进行展示的过程。

常见的数据分析方法

数据分析常见的分类有一下3种。

描述行数据分析:最初级的数据分析方法。如:本月新增XXX用户。

探索性数据分析:侧重于发现规律和特征。

验证性数据分析:已经确定使用的假设模型,用来验证分析该假设模型。

从技术维度又可以分为以下几种。

统计分析类:统计分析类,以基础的统计分析为主,包括对比分析、同比分析、环比分析、定比分析、差异分析、结构分析、因素分析、80/20分析等。

高级分析类:以建模理论为主,包括回归分析、聚类分析、相关分析、矩阵分析、判别分析、主成分分析、因子分析、对应分析、时间序列分析等。

数据挖掘类:以机器学习、数据仓库等复合技术为主。

常见几种类别含义:

对比分析法:是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。包括纵向对比、横向对比、标准对比,以及实际与计划对比。从而展示和说明研究对象规模的大小、水平的高低等问题。

同比分析法:按照时间进行扩展,用本期实际发生数与同统计条件或口径(年、月、日,如今年这天和去年这天)历史数字相比,产生动态相对指标,展示发展水平以及增长速度。同比增长速度=(本期-同期)/同期×100%

环比分析法:环比分析是报告期水平与前一时期水平之比,表明现象逐期的变化趋势。本质就是本期数据与上期数据比较,形成时间序列图,说明每期的变化程度。环比增长速度=(本期-上期)/上期×100%

回归分析:主要用于统计分析和预测。回归分析研究的是变量之间的关系以及相互影响的程度,可通过建立自变量和因变量的方程,研究某个因素受其他因素影响的程度或用来预测。回归分析有线性和非线性回归、一元和多元回归之分。常用的回归方程有一元线性和多元线性回归方程。一元线性回归方程:以X为自变量、Y为因变量的一元线性方程。当自变量有两个或多个时,研究因变量Y和多个自变量1X,2X,…,nX之间的关系。

建立回归分析的常见过程:收集数据,画出散点图确认关系,建立回归方程,检验统计参数,进行方差分析或残差分析,优化回归方程。

聚类分析法:聚类分析多用于人群分类,如目标购物群体的分类。所谓聚类,是指将数据集中某些方面相似的数据成员进行分类组织的过程。按照某种距离计算方式,分成若干个分类,每个分类内的差异性比类与类之间的差异性小。聚类与分类分析不同,所划分的类是未知的。因此,聚类分析也称为无指导或无监督学习。它是静态数据分析的一门技术,在许多领域被广泛应用,包括机器学习、数据挖掘、模式识别、图像分析以及生物信息。

数据分析工具

excel:常用Excel进行数据分析,但在数据量大、公式嵌套多的情况,Excel处理会较麻烦。

Python:提供了大量的第三方扩展模块,如NumPy、SciPy、Matplotlib、Pandas、Scikit-Lenrn、Keras和Gensim等。

数据分析通用流程

确认目标:搞清楚要分析什么、要达到什么样的效果,明确分析目的和思路后考虑用哪种分析方法,然后进行数据处理和分析等后续工作。

获取数据:获取数据的方式多种,如:使用公开的数据集。常见的公开的数据集:UCI、github、中国统计信息网、DataCastle、Kaggle、天池、Datafountain。利用爬虫获取数据、网络采集器(造数、爬山虎)、数据交易平台。

处理数据:处理数据是指从大量的、杂乱无章的、难以理解的、缺失的数据中,整理抽取出对解决问题有价值、有意义的数据的过程。处理数据主要包括数据规约(减小规模)、数据清洗(重复数据、缺失、异常数据处理、数据探索分析)、数据加工(抽取、计算、分组、转换)等处理方法。

分析数据:选择适合的分析方法和分析工具很重要,分析方法具备准确性、可操作性、可理解性和可应用性。形成数据分析思维。

验证结果:通过工具和方法分析的结果只是数据某个结果的体现,有时不一定准确,所以必须进行验证。

展示数据:展示数据就是指数据可视化,即把数据分析结果展示给业务层的过程。

应用数据:数据分析结果应用到实际业务当中,是数据产生实际价值的直接体现。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值