数据分析概述和理论基础

40人阅读 评论(0) 收藏 举报
分类:

什么是数据分析?


数据分析:是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,而对数据加以详细研究和概括总结的过程。


为什么会有数据分析?


随着计算机技术、互联网技术、数据库技术等科技的高速发展,人们产生数据、获取数据、存储数据变得越来越容易,而这些数据里也隐含着人们在生产生活中的一些规律。


数据分析就是为了从数据中发现这些规律性的信息,帮助企业/个人预测未来的趋势和行为,做出具有针对的决策,从而使得商务和生产活动具有前瞻性。

"二十四节气歌、朝霞不出门,晚霞行千里...." 对于一些简单的自然现象,我们的老祖先们通过归纳提取得出很多经验知识,但是现代人类世界中有太多的复杂问题,数据量极大,已经远远超出了人脑可处理的范围。怎么办?


数据分析是 数学与计算机科学 相结合的产物,在实用应用中,人们可以人们通过计算机工具和数学知识处理数据,得出结果作出判断,以便采取适当行动,

课外阅读:数据分析真实故事


啤酒与尿布


有一个叫萨姆 沃尔顿的人,大家应该都知道吧?如果不知道,那么沃尔玛,应该知道。是萨姆 沃尔顿将一个百货商店奇迹般地经营为全球最大的连锁零售企业。早在1985年10月就被《福布斯》杂志列为全美富豪排行榜首位,连美国总统布什都赞扬他是地道的美国人,展现了企业创新精神,是美国梦的缩影…


1983年,当一般零售商还在进行信息化建设的时候,沃尔玛已经开始与休斯公司合作,花费了2400万美元发射了一颗人造文星,此后先后投入6亿多美元建立起电脑与卫星系统,还发明了条形码、无线扫描枪、计算机跟踪存货等技术。借助于整套的高科技信息网络,沃尔玛的各部门沟通、各业务流程可迅速、准确的运行,数据库系统很快积累了海量的经营数据,包括大量的顾客消费行为记录。


一年一度的圣诞节就要到了,沃尔玛的工作人员按照惯例筹备节日的营销策略。这一次它们使用了一种新的‘购物篮分析’的软件,对海量的顾客消费行为进行分析,一个意外的发现让人们瞠目结舌,跟尿布一起购买最多的商品竟然是啤酒!


紧接着,沃尔玛派出市场调查人员和分析师对这一结果进行了深入研究,证实了它揭示了一条隐藏的在‘啤酒与尿布’背后的美国人的一种行为模式:一些年龄在2535岁的年轻父亲下班后经常要到超市去买婴儿买尿布,而他们中由30%40%的人会顺手为自己购买几瓶啤酒。


此后,沃尔玛马上采取行动,将卖场内原来相隔很远的妇婴用品与酒类饮料区的空间距离拉近,使顾客更加方便。然后对本地区新生育家庭的消费能力进行了调查,对这两个产品的价格也做出了调整,并向一次购买达到一定金额的顾客赠送婴儿奶嘴以及其他小礼品,结果是尿布与啤酒的销量双双大增。


出奇制胜


2006年世界杯上,阿根廷和德国在1/4决赛中120分钟难分高下,在点球大战开始之前,老门将卡恩将一张纸条递到莱曼手中。莱曼每次扑点球之前都要看一眼纸条。结果是,莱曼所有点球都判断对了方向,除了两个点球质量太高无力回天外,其余全部扑出,阿根廷只能黯然出局。


问题是,那张纸条上究竟写了什么?


上面记录着阿根廷队的克鲁兹、阿亚拉、罗德里格斯以及坎比亚索习惯的脚法。德国队守门员教练科普克如此精确的预测出阿根廷球员射出的点球方向,并不是他有什么过人的占卜天才。那张草草的扑点球秘籍来自于德国科隆体育学院数据分析小组夜以继日的努力。


分析小组收集了阿根廷球队13000个点球的录像,所有这些采集回来的点球数据被录入数据库中,并根据阿根廷射门练习的数据找出了一些可以描述射门动作的行为特征,比如“阿亚拉,短助跑,右下角;里克尔梅,斜上助跑,右下角;马克西,长距离助跑,左上角;坎比亚索,长距离助跑,右侧;索林,短助跑,右下角,特维斯,短助跑,中路…….”


这些行为特征描述了阿根廷堆谁伐点球、怎么罚点球的规律。最终从这些特征中提炼出很少的更具体的特征。正是这张纸条把大力神杯交到了德国队手中。小纸条上总结的这些规律就是数据挖掘与分析的结果。


关注【Python开发者交流平台】公众号 ,在微信后台回复【领取资源】,获取IT资源200G干货大全。

查看评论

数据分析概述

       对于数据分析,我相信每个使用了信息系统的企业,都有自己的理解。他们有些来自书本,有些来自于工作经验,有些来自于软件供应货。但就我所了解的企业与信息系统,他们对于数据报表的定义、对数据分析...
  • shin_zhong
  • shin_zhong
  • 2009-09-19 11:00:00
  • 391

左国锋-数据分析讲稿.ppt

  • 2009年10月29日 18:09
  • 1.46MB
  • 下载

大话数据结构-电子高清版+数据分析概念与入门 PPT 打包

  • 2018年03月19日 14:34
  • 53.49MB
  • 下载

数据分析与挖掘学习日志之数据挖掘概述(六)

数据挖掘大概萌芽于上世纪70年代,1989年8月首次在美国底特律召开的11届人工智能大会上首次出现知识发现KNN这个术语。上世纪90年代,97年中国开始有关数据挖掘的研究。数据挖掘发展过程:数据收集-...
  • qq_37889257
  • qq_37889257
  • 2018-03-19 19:42:04
  • 59

大数据学习——数据挖掘理论基础

本文学习来源于《数据挖掘理论与技术》(电子工业出版社)数据挖掘概述数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。从研究的历史看,它们是数据库、人工智能、数理统计、计...
  • xundh
  • xundh
  • 2017-03-12 17:52:02
  • 980

RF理论基础,对IC设计和应用都有帮助

  • 2009年05月26日 13:10
  • 4.2MB
  • 下载

数据分析建模流程概述

  • 2018年04月14日 18:16
  • 793KB
  • 下载

因子分析理论介绍

因子分析分为Q型和R型,我们是正对R型进行如下研究: 一。因子分析步骤: 1.确认是是否适合做因子分析 2.构造因子变量 3.旋转方法解释 4.计算因子变量得分 二。因子分析的计算过程: ...
  • slade_sha
  • slade_sha
  • 2017-04-17 15:55:05
  • 1060

计算机网络理论基础

网络面试问题OSI与TCP/IP各层的结构、功能及协议OSI模型物理层机械、电子、定时接口通信信道上的原始比特流传输。链路层物理寻址,将原始比特流转变成逻辑传输路线。 隧道协议 ARP/RARP(地址...
  • zmc001biao
  • zmc001biao
  • 2017-07-15 17:37:14
  • 344
    个人资料
    持之以恒
    等级:
    访问量: 1万+
    积分: 1664
    排名: 3万+
    博客专栏
    文章存档
    最新评论