大数据学习——Day4(数据分析基础、数据的趋势)

本文介绍了数据分析的基础,包括目的、内容、数据收集、预处理、分析和报告的流程。探讨了数据分析方法,如预处理加工、描述性统计、方差分析、回归和因子分析。还讲解了数据挖掘中的聚类和分类技术。最后,讨论了数据的趋势,重点阐述了集中趋势(平均数、众数、分位数)和离中趋势(极差、方差、标准差和离散系数)的概念。
摘要由CSDN通过智能技术生成

数据分析基础

数据分析流程

  1. 目的和内容:项目-整体框架、业务问题-分析对象
  2. 数据收集:准确、有效(SQL语言)
  3. 数据预处理:检验、清洗
  4. 数据分析:方法、软件
  5. 数据表现:表、图形
  6. 数据报告:整体框架、结论、建议、解决方案

数据分析方法

  1. 预处理加工:描述性统计分析(趋势、分布);相关分析(单一、多个、相关系数)
  2. 基于梳理统计:方差分析、回归分析、因子分析
  3. 数据挖掘:
    - 聚类分析(层次分析、K-均值、模糊聚类、高斯回归……);
    - 分类分析(决策树、神经网络、贝叶斯分类、SVM、随机森林……);
    - 回归分析(线性回归、逻辑回归……)

基础工具

  1. Excel、SQL:SPSS、Eviews、Tableau……
  2. R、Matlab、D3
  3. Python:Hadoop、Hive

数据的趋势

统计中的简单概念

统计中简单概念

集中趋势

一组数据向某一中心值靠拢的程度。

  1. 平均数:算数平均数、加权算法平均数、几何算法平均数
  2. 众数
    - 出险次数多,不受极端值影响
    - 在数量较大时更有意义
  3. 分位数:分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。

分位数

离中趋势

  1. 极差
  2. 分位差:与分位矩有关
  3. 平均差
  4. 方差和标准差
  5. 离散系数: 方 差 / 平 均 数 方差/平均数 /
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值