什么是数据分析?

背景

大数据火热的背后,更深刻的原因是因为企业开始越来越重视数据的价值,基于企业大数据平台进行大数据运用分析,那么,数据分析对公司和企业有什么作用呢?

数据

  • 数据是客观事实,对于客观事物发生、发展的数字化记录。随着科学技术的发展,数据的概念内涵越来越广泛包括数值,文本,声音,图像,视频。

  • 数据可以分为定性数据和定量数据。

  • 定性数据:描述事物的属性,名称等,它是一种标志,没有序次关系。例如,性别:男 = 1,女= 2

  • 定量数据:描述量化属性,或用于编码。如交易金额、额度、商品数量、积分数、客户评分等

  • 定量数据还分为:定序数据、定距数据与定比数据

  • 定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲 = 1,小学 = 2,初中 = 3,高中 = 4,大学 = 5,硕士研究生 = 6,博士及其以上 = 7。

  • 定距数据(Interval):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。例如,温度等。

  • 定比变量(Ratio):数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高等。

数据分析

  • 简单来说:对数据进行分析。

  • 专业说法:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据分析工作,不仅要求数据分析人员要具有数据分析的基础知识,还要求数据分析人员要有一定的经济理论知识。即不仅要掌握数据分析的方法,还要了解有关的经济技术状况、有一定的文化水平和分析归纳能力。

目的

把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。

  • 分类

  • 检查未知分类或暂时未知分类的数据,目的是为了预测数据属于哪个类别。使用具有已知分类的相似数据来研究分类规则,将规则应用于未知分类数据并将其归类。

  • 推荐系统

  • 在线推荐系统使用协作过滤算法,该协作过滤算法是基于给定的历史购买行为、等级、浏览历史或任何其他可测量的偏好行为或其他用户购买历史的方法。

  • 因此,在许多推荐系统中使用了协作过滤,以向具有广泛偏好的用户提供个性化推荐。

  • 预测分析

  • 包括: 分类、预测、关联规则、协作过滤、和模式识别等方法

  • 数据缩减和降维

  • 当变量的数量有限,并且可以将大量样本数据分为同类时,通常会提高数据挖掘算法的性能

  • 减少变量的数量通常称为:降维

  • 降维:旨在提高可预测性、可管理性和可解释性

  • 数据探索和可视化

  • 数据探索的目的:了解数据的整体情况并检测异常值。

  • 通过图标和仪表板创建的数据浏览称为“数据可视化”或“可视化数据分析”

  • 知名大数据分析工具:Smartbi

  • 支持ECharts图形库,支持包含瀑布图、树形图等几十种可实现动态交互的图形,更加直观

  • 监督学习算法

  • 监督学习算法:用于分类和预测的算法,数据分类必须是已知的

  • 训练数据:在分类或预测算法中,用于学习或训练的预测变量和结果变量之间的关系数据

  • 简单线性回归是监督算法的一个例子

意义

告诉你过去发生了什么、告诉你为什么发生了这些、告诉你未来会发生什么

  • 完整、科学地反应客观情况

  • 通过对公司的海量数据进行统计、分析、研究并形成数据分析报告

  • 得到较为完整、科学的客观情况反映,从而协助制定决策和计划,充分发挥数据分析促进管理、参与决策的重要作用

  • 监督公司运行状态

  • 通过分析公司的海量数据,可以比较全面、精准的了解到公司过去、现在的运行状态和发展变化情况,甚至能够比较准确的预测行业未来的发展趋势,由此对公司未来发展方向做出预测、规避风险。

  • 监督各部门对于方针政策的贯彻执行情况和生产经营计划的完成情况等

类型

  • 描述性分析

  • 主要是带有目的性的区描述数据,借助统计学知识等就能完成描述性分析的任务

  • 主要是为了获得对数据的初步感知,针对一些简单观察得不到的结论

  • 具备统计学基础,会使用Python 的Numpy和Pandas库,问题不大

  • 探索性分析

  • 不再局限于简单的数据统计分类,更多的需要借助可视化手段,进一步去观察数据的分布规律,发掘更深层次的数据价值

  • 技能要求:Seaborn、Matplotlib

  • 预测性分析

  • 相较于前两者,预测性分析难度更大,但是所能获取的价值也更大

  • 涵盖了各种统计学技术,包括利用预测模型、机器学习、数据挖掘等技术,来分析当前及历史数据,从而对未来或其他不确定的事件进行预测

  • 在商业领域,预测模型从历史和交易数据探索 规律,以识别可能的风险和商机。模型捕捉各个因素之间的联系,以评估风险及与之相关的潜在的条件,从而指导交易方案的决策。

  • 最著名的应用之一:信用评分

  • 评分模型处理一个客户的信用记录、客户数据等,从而分析个体在未来还贷的可能性,预测风险

在大数据运用分析当中,不管是描述性分析、探索性分析还是预测性分析,归根结底来说是要对数据源有着清晰明了的认识,掌握对应的技能,才能真正实现数据价值的挖掘,对下一步的数据应用产生积极的影响。

所需能力


单纯个人记录和分享, 希望得到支持和鼓励。

如果对您有帮助,可以点赞评论鼓励一下!

如果有更优的的建议或方法,可以在评论区留下见解!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值