数据分析概述和理论基础

什么是数据分析?


数据分析:是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,而对数据加以详细研究和概括总结的过程。


为什么会有数据分析?


随着计算机技术、互联网技术、数据库技术等科技的高速发展,人们产生数据、获取数据、存储数据变得越来越容易,而这些数据里也隐含着人们在生产生活中的一些规律。


数据分析就是为了从数据中发现这些规律性的信息,帮助企业/个人预测未来的趋势和行为,做出具有针对的决策,从而使得商务和生产活动具有前瞻性。

"二十四节气歌、朝霞不出门,晚霞行千里...." 对于一些简单的自然现象,我们的老祖先们通过归纳提取得出很多经验知识,但是现代人类世界中有太多的复杂问题,数据量极大,已经远远超出了人脑可处理的范围。怎么办?


数据分析是 数学与计算机科学 相结合的产物,在实用应用中,人们可以人们通过计算机工具和数学知识处理数据,得出结果作出判断,以便采取适当行动,

课外阅读:数据分析真实故事


啤酒与尿布


有一个叫萨姆 沃尔顿的人,大家应该都知道吧?如果不知道,那么沃尔玛,应该知道。是萨姆 沃尔顿将一个百货商店奇迹般地经营为全球最大的连锁零售企业。早在1985年10月就被《福布斯》杂志列为全美富豪排行榜首位,连美国总统布什都赞扬他是地道的美国人,展现了企业创新精神,是美国梦的缩影…


1983年,当一般零售商还在进行信息化建设的时候,沃尔玛已经开始与休斯公司合作,花费了2400万美元发射了一颗人造文星,此后先后投入6亿多美元建立起电脑与卫星系统,还发明了条形码、无线扫描枪、计算机跟踪存货等技术。借助于整套的高科技信息网络,沃尔玛的各部门沟通、各业务流程可迅速、准确的运行,数据库系统很快积累了海量的经营数据,包括大量的顾客消费行为记录。


一年一度的圣诞节就要到了,沃尔玛的工作人员按照惯例筹备节日的营销策略。这一次它们使用了一种新的‘购物篮分析’的软件,对海量的顾客消费行为进行分析,一个意外的发现让人们瞠目结舌,跟尿布一起购买最多的商品竟然是啤酒!


紧接着,沃尔玛派出市场调查人员和分析师对这一结果进行了深入研究,证实了它揭示了一条隐藏的在‘啤酒与尿布’背后的美国人的一种行为模式:一些年龄在2535岁的年轻父亲下班后经常要到超市去买婴儿买尿布,而他们中由30%40%的人会顺手为自己购买几瓶啤酒。


此后,沃尔玛马上采取行动,将卖场内原来相隔很远的妇婴用品与酒类饮料区的空间距离拉近,使顾客更加方便。然后对本地区新生育家庭的消费能力进行了调查,对这两个产品的价格也做出了调整,并向一次购买达到一定金额的顾客赠送婴儿奶嘴以及其他小礼品,结果是尿布与啤酒的销量双双大增。


出奇制胜


2006年世界杯上,阿根廷和德国在1/4决赛中120分钟难分高下,在点球大战开始之前,老门将卡恩将一张纸条递到莱曼手中。莱曼每次扑点球之前都要看一眼纸条。结果是,莱曼所有点球都判断对了方向,除了两个点球质量太高无力回天外,其余全部扑出,阿根廷只能黯然出局。


问题是,那张纸条上究竟写了什么?


上面记录着阿根廷队的克鲁兹、阿亚拉、罗德里格斯以及坎比亚索习惯的脚法。德国队守门员教练科普克如此精确的预测出阿根廷球员射出的点球方向,并不是他有什么过人的占卜天才。那张草草的扑点球秘籍来自于德国科隆体育学院数据分析小组夜以继日的努力。


分析小组收集了阿根廷球队13000个点球的录像,所有这些采集回来的点球数据被录入数据库中,并根据阿根廷射门练习的数据找出了一些可以描述射门动作的行为特征,比如“阿亚拉,短助跑,右下角;里克尔梅,斜上助跑,右下角;马克西,长距离助跑,左上角;坎比亚索,长距离助跑,右侧;索林,短助跑,右下角,特维斯,短助跑,中路…….”


这些行为特征描述了阿根廷堆谁伐点球、怎么罚点球的规律。最终从这些特征中提炼出很少的更具体的特征。正是这张纸条把大力神杯交到了德国队手中。小纸条上总结的这些规律就是数据挖掘与分析的结果。


关注【Python开发者交流平台】公众号 ,在微信后台回复【领取资源】,获取IT资源200G干货大全。

阅读更多
个人分类: Python
上一篇数据分析的过程
下一篇一个前端妹子的悲欢编程之路
想对作者说点什么? 我来说一句

MX 旋转菜单

2002年12月11日 280KB 下载

没有更多推荐了,返回首页

关闭
关闭