数据处理流程总结

一.数据分析

1.什么是数据分析?

在这里插入图片描述

2.数据分析的分类

在这里插入图片描述

3.数据分析的三大作用

现状分析、原因分析、预测分析。

4.数据分析的流程

在这里插入图片描述

1.问题的定义:明确目的和思路(具有数据思维)

问正确的问题往往是成功的一半。——邱老师

首先你需要确定去分析的问题是什么?你想得出哪些结论?即,先明确分析目的:问题的定义可能需要你去了解业务的核心知识,并从中获得一些可以帮助你进行分析的经验。

然后梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。同时,确保分析框架的体系化和逻辑性。

2.数据收集

一般数据来源于四种方式:

  • 1)内部数据:如公司的数据库;
  • 2)第三方统计数据:如专业的调研机构的统计年鉴或报告、市场调查;
  • 3)编写网页爬虫,去收集互联网上的数据;

3.数据预处理

数据处理主要包括:

  • 数据清洗:如异常值、重复值等的处理,缺失值的处理
  • 数据转化:如将男女,转化为01
  • 数据抽取:特征的选择()
  • 数据合并:几项数据的汇总成一项特定的数据项
  • 数据计算

这些处理方法,将各种原始数据加工成为数据分析所要求的样式。

4.数据分析

在这个部分需要了解基本的数据分析方法、数据挖掘算法,了解不同方法适用的场景和适合的问题。

1)常用的数据分析工具,掌握Excel的数据透视表,就能解决大多数的问题。需要的话,可以再有针对性的学习SPSS、R等工具。

2)数据挖掘是一种高级的数据分析方法,侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。

5.数据展现

一般情况下,数据是通过表格和图形的方式来呈现的。

常用的数据图表包括饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图等。进一步加工整理变成我们需要的图形,如金字塔图、矩阵图、漏斗图、帕雷托图等。

一般能用图说明问题的就不用表格,能用表说明问题的就不用文字。

图表制作的五个步骤:
1、确定要表达主题
2、确定哪种图表最适合
3、选择数据制作图表
4、检查是否真实反映数据
5、检查是否表达观点

6.报告撰写

数据分析报告不仅是分析结果的直接呈现,还是对相关情况的一个全面的认识。我们经常看到一些行业分析报告从不同角度、深入浅析地剖析各种关系。所以你需要一个讲故事的逻辑,如何从一个宏观的问题,深入、细化到问题内部的方方面面,得出令人信服的结果,这需要从实践中不断训练。

一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。

  • 1)结构清晰、主次分明可以使阅读者正确理解报告内容;
  • 2)图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
  • 3)好的数据分析报告需要有明确的结论、建议或解决方案。

5.数据分析的四大误区

1.分析目的不明确,为了分析而分析,这是菜鸟常常容易出现的问题;

2.缺乏行业、公司业务认知,分析结果偏离实际。数据必须和业务结合才有意义。摸清楚所在产业链的整个结构,对行业的上游和下游的经营情况有大致的了解,再根据业务当前的需要,制定发展计划,归类出需要整理的数据。同时,熟悉业务才能看到数据背后隐藏的信息;

3.为了方法而方法,为了工具而工具,只要能解决问题的方法和工具就是好的方法和工具;

4.数据本身是客观的,但被解读出来的数据是主观的。同样的数据由不同的人分析很可能得出完全相反的结论,所以一定不能提前带着观点去分析

二.常用的统计和建模方法

回归

分类

聚类

关联分析

降维:主成分分析、奇异值分解

三.具体的工具方法

AI算法工程师手册
机器学习100天

1.python

1.1 数据爬虫

1.2 数据预处理

数据预处理方法

pandas

numpy

1.3 数据分析与挖掘

1.4 数据可视化

matplotlib库

2.SQL

网络教程

明确每种查询函数的性质,使用方法,适用条件。

  • SQL四种连接方式详细说一下不同
  • group by 与 partition by的区别

偏向实际应用的SQL语句,而仅仅是基础的查询。

四.具体的业务问题

如何提高专车的订单量,都有什么方法
某一天订单量下降,从不同角度分析原因

问:滴滴营收突然降低,你会怎么分析?(借鉴网友)

  • 怀疑数据的正确性;
  • 查看历史出现这情况是什么原因,这些原因作为此次分析的必要部分。
  • 分析什么会影响营收?两个方面:收入 支出
  • 再进一步问:什么影响收入的?
  • 市场整体收缩(季节,地铁大面积开通) 、对手强弱(美团打车大额补贴进入)、政策(计价规则调整)、公关事件(顺风车事件)
  • 什么影响支出?
  • 主要是补贴强弱 (客户端 司机端)
  • 14
    点赞
  • 94
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于DTIStudio的DTI数据处理详细流程如下: 1. 数据准备:将所采集的DTI原始图像数据导入DTIStudio软件中。 2. 选择ROI(感兴趣区域):根据需要选择感兴趣的区域,可以是整个大脑或特定脑区。 3. 图像预处理:进行图像预处理,包括去除头颅部分以及矫正图像的运动估计。 4. DTI参数计算:根据每个体素中的水分子扩散方向,计算DTI参数,如各向异性(diffusion anisotropy)度量、主垂直扩散方向、主垂直扩散方向的扩散率等。 5. 线性变换:进行线性变换,将每个DTI图像与参考图像进行配准。 6. DTI纤维追踪:利用配准后的DTI数据,根据水分子扩散方向的变化模式,进行纤维追踪。可以选择从感兴趣区域出发,沿着主垂直方向追踪纤维束。 7. 纤维束的参数计算:对于追踪到的纤维束,可以计算其长度、弯曲程度、个数等参数。 8. 分析和可视化:根据需要进行数据分析和可视化,可以进行纤维束的交互式三维可视化展示。 9. 结果输出:将处理后的数据结果输出为图像或文件,方便进一步的研究和分析。 总结起来,基于DTIStudio的DTI数据处理流程包括数据准备、选择ROI、图像预处理、DTI参数计算、线性变换、DTI纤维追踪、纤维束的参数计算、分析和可视化以及结果输出。这个流程可以帮助研究人员对DTI数据进行处理和分析,进一步了解脑部结构和功能之间的变化和联系。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值