数据分析概述和理论基础


什么是数据分析?


数据分析:是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,而对数据加以详细研究和概括总结的过程。


为什么会有数据分析?


随着计算机技术、互联网技术、数据库技术等科技的高速发展,人们产生数据、获取数据、存储数据变得越来越容易,而这些数据里也隐含着人们在生产生活中的一些规律。


数据分析就是为了从数据中发现这些规律性的信息,帮助企业/个人预测未来的趋势和行为,做出具有针对的决策,从而使得商务和生产活动具有前瞻性。

"二十四节气歌、朝霞不出门,晚霞行千里...." 对于一些简单的自然现象,我们的老祖先们通过归纳提取得出很多经验知识,但是现代人类世界中有太多的复杂问题,数据量极大,已经远远超出了人脑可处理的范围。怎么办?


数据分析是 数学与计算机科学 相结合的产物,在实用应用中,人们可以人们通过计算机工具和数学知识处理数据,得出结果作出判断,以便采取适当行动,

课外阅读:数据分析真实故事


啤酒与尿布


有一个叫萨姆 沃尔顿的人,大家应该都知道吧?如果不知道,那么沃尔玛,应该知道。是萨姆 沃尔顿将一个百货商店奇迹般地经营为全球最大的连锁零售企业。早在1985年10月就被《福布斯》杂志列为全美富豪排行榜首位,连美国总统布什都赞扬他是地道的美国人,展现了企业创新精神,是美国梦的缩影…


1983年,当一般零售商还在进行信息化建设的时候,沃尔玛已经开始与休斯公司合作,花费了2400万美元发射了一颗人造文星,此后先后投入6亿多美元建立起电脑与卫星系统,还发明了条形码、无线扫描枪、计算机跟踪存货等技术。借助于整套的高科技信息网络,沃尔玛的各部门沟通、各业务流程可迅速、准确的运行,数据库系统很快积累了海量的经营数据,包括大量的顾客消费行为记录。


一年一度的圣诞节就要到了,沃尔玛的工作人员按照惯例筹备节日的营销策略。这一次它们使用了一种新的‘购物篮分析’的软件,对海量的顾客消费行为进行分析,一个意外的发现让人们瞠目结舌,跟尿布一起购买最多的商品竟然是啤酒!


紧接着,沃尔玛派出市场调查人员和分析师对这一结果进行了深入研究,证实了它揭示了一条隐藏的在‘啤酒与尿布’背后的美国人的一种行为模式:一些年龄在2535岁的年轻父亲下班后经常要到超市去买婴儿买尿布,而他们中由30%40%的人会顺手为自己购买几瓶啤酒。


此后,沃尔玛马上采取行动,将卖场内原来相隔很远的妇婴用品与酒类饮料区的空间距离拉近,使顾客更加方便。然后对本地区新生育家庭的消费能力进行了调查,对这两个产品的价格也做出了调整,并向一次购买达到一定金额的顾客赠送婴儿奶嘴以及其他小礼品,结果是尿布与啤酒的销量双双大增。


出奇制胜


2006年世界杯上,阿根廷和德国在1/4决赛中120分钟难分高下,在点球大战开始之前,老门将卡恩将一张纸条递到莱曼手中。莱曼每次扑点球之前都要看一眼纸条。结果是,莱曼所有点球都判断对了方向,除了两个点球质量太高无力回天外,其余全部扑出,阿根廷只能黯然出局。


问题是,那张纸条上究竟写了什么?


上面记录着阿根廷队的克鲁兹、阿亚拉、罗德里格斯以及坎比亚索习惯的脚法。德国队守门员教练科普克如此精确的预测出阿根廷球员射出的点球方向,并不是他有什么过人的占卜天才。那张草草的扑点球秘籍来自于德国科隆体育学院数据分析小组夜以继日的努力。


分析小组收集了阿根廷球队13000个点球的录像,所有这些采集回来的点球数据被录入数据库中,并根据阿根廷射门练习的数据找出了一些可以描述射门动作的行为特征,比如“阿亚拉,短助跑,右下角;里克尔梅,斜上助跑,右下角;马克西,长距离助跑,左上角;坎比亚索,长距离助跑,右侧;索林,短助跑,右下角,特维斯,短助跑,中路…….”


这些行为特征描述了阿根廷堆谁伐点球、怎么罚点球的规律。最终从这些特征中提炼出很少的更具体的特征。正是这张纸条把大力神杯交到了德国队手中。小纸条上总结的这些规律就是数据挖掘与分析的结果。


【文末福利】

关注 【编程微刊】微信公众号:

回复【小程序demo】一键领取130个微信小程序源码demo资源。

回复【领取资源】一键领取前端,Java,产品经理,微信小程序,Python等资源合集8G资源大放送。

转载于:https://www.cnblogs.com/ting6/p/9725580.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这本教科书的创作灵感是克拉科夫经济大学管理学院新专业“应用信息学”的开始。 由于独特和创新的学习课程,有必要开发基础文献,以支持教学过程。 在本书中,我们将讨论与数据分析和处理方法相关的广泛问题。 该主题包含在新专业的课程中,包括以下课程:数据建模、电子数据交换、数据挖掘方法、人工智能方法、决策支持系统、语义网络和计算机科学的当代趋势。 本教科书可作为这些课程的参考文献。 第一章专门讨论数据建模这一极其重要的问题,它是创建信息系统的基础。 大量示例说明了有关模型构建和验证的不同方法的理论考虑。 第二章概述了电子数据交换 (EDI) 的基础知识。 特别注意 XML 语言,它是当前 EDI 标准的主要组成部分。 下一章概述了数据挖掘方法。 所涵盖的事项包括与选择合适的方法来解决某些类型的任务有关的事项。 第 4 章定义了人工智能在计算机科学中的地位。本章还讨论了可以使用人工智能方法解决的问题类别,以及人工智能系统的结构。 第 5 章概述了决策支持系统的创建起源,该系统还使用了前两章中讨论的数据挖掘和人工智能方法,以及其功能和架构背后的思想。 本章还概述了不同类型的决策支持系统。 我们生活在互联网普遍接入的时代。 描述互联网中数据的标准和方式正在发生变化,机器可以自动识别数据的含义 10 数据分析和处理的计算机方法 克拉科夫经济大学放在网站上。 第 6 章介绍了下一代 Web 3.0(语义网)的愿景、其核心技术及其在数据处理中的应用。本书的最后一章概述了计算机科学发展的当代趋势。 本章讨论的问题既涉及技术发展,也涉及这种发展对数据处理能力(包括新一代处理器、外设)的影响,以及新兴的数据处理新概念(云计算)。 作者希望本书能够帮助读者理解所讨论的问题,并为继续探索数据分析的方法和工具及其应用提供启发。
课程简介: 本课程主要介绍Python数据分析基础知识、常用工具以及数据分析实践。通过课程的学习,学生可以了解到Python数据分析的基本概念和理论,掌握Python数据分析的基本技能,能够使用Python进行数据清洗、数据分析和数据可视化,能够应用Python进行实际数据分析项目。 课程大纲: 第一章:Python数据分析概述 1.1 数据分析的概念与流程 1.2 Python数据分析的优势 1.3 Python数据分析的主要应用场景 第二章:Python基础知识回顾 2.1 Python的基本数据类型 2.2 Python的流程控制语句 2.3 Python的函数与模块 第三章:Python数据分析工具介绍 3.1 NumPy:Python科学计算工具 3.2 Pandas:Python数据处理工具 3.3 Matplotlib:Python绘图工具 3.4 Seaborn:Python高级绘图工具 第四章:数据清洗 4.1 数据清洗的概念与流程 4.2 缺失值处理 4.3 重复值处理 4.4 异常值处理 第五章:数据分析 5.1 数据分析的概念与流程 5.2 描述性统计分析 5.3 探索性数据分析 5.4 预测性数据分析 第六章:数据可视化 6.1 数据可视化的概念与流程 6.2 Matplotlib绘图基础 6.3 Seaborn高级绘图 6.4 绘图实例分析 第七章:数据分析实践 7.1 实际数据分析项目介绍 7.2 数据获取与清洗 7.3 数据探索与分析 7.4 数据可视化与报告 课程收益: 1. 理解Python数据分析的基本概念和理论知识。 2. 掌握Python数据分析的基本技能,包括数据清洗、数据分析和数据可视化。 3. 能够运用Python进行实际数据分析项目。 4. 掌握Python数据分析的主要工具,包括NumPy、Pandas、Matplotlib和Seaborn等。 5. 学习Python数据分析的实践经验,提高数据分析的实际应用能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值