大数据简史(从结绳记事到如何成为数据科学家)

目录

 

第一章 从结绳记事说起

第二章 古代数据分析学科的发展

赌博催生了概率论

人口社会调查催生了数理统计

数据分析与统计的应用——格朗特与死亡公报

数据分析与统计的应用——斯诺与霍乱

第三章 近代美国计算技术的发展与应用

数据库的起源——打孔卡

美军海军面对日本飞机自杀性攻击

第四章 商业智能与营销管理理论的兴起

罗伯特-麦克纳马拉

关系型数据库之父——埃德加-科德

商业智能的出现

商业营销理论的发展

第五章 大数据出现的标志性事件

第六章 大数据时代

大数据的时代来临

机器学习的革命性突破

第七章 大数据分析人才培养

6步成为数据科学家


第一章 从结绳记事说起

数据技术的发展历史就是人类追求美好生活过程的真实写照

 

数字并不是由阿拉伯人发明的

数字和文字的发展是齐头并进的

数字是在人类对客观世界观察后得出的对事物进行量化的概念

 

结绳记事:结并不只是简单的打结,而是通过打不同的结来描述不同的事物

结绳记事其实并不是单单用来计数

记数法:计数成为工具是数字的发明——起源于从原始、游牧社会进入田耕社会

印度-阿拉伯数字系统是一系列的十进制的记数系统,起源于9世纪的印度

当代的很多文字系统的不同记数符号都是起源于此系统

起源于印度的婆罗米数字

阿拉伯数字的起源是印度人创建了0的概念,之后又和古希腊文字融合,逐步演变成了现今的阿拉伯数字体系

 

 

第二章 古代数据分析学科的发展

赌博催生了概率论

十七世纪中叶,法国贵族德-美黑写信向当时法国的数学家帕斯卡请教骰子赌博中赌资分配的问题

这封信促使了概率论的催生:9局5胜的赌局,赌到第7局,4比3时中途停止。此时,赌资应该各自拿走合理,还是应该根据剩下输赢的概率进行分配合理

用概率论算一次!!!

于是,帕斯卡和数学家费尔码一起,研究了德-美黑的问题,此时一个新的数学分支——概率论登上了历史舞台

1657年,荷兰著名的天文、物理兼数学家惠更斯写成《论机会游戏的计算》一书,是最早的概率论著作

概率论的第一本专著是1713年问世的雅各-贝努利的《推测术》

1642年,帕斯卡制成了世界第一台进行6位数加减法运算的手摇机械计算机

人口社会调查催生了数理统计

概率论的出现晚于数理统计

中国:

公元前2250年大禹治水。根据山川土质,人力和物力的多寡,分全国为九州

殷周时代井田制。按人口分地,进行了土地与户口的统计

汉代全国的户口和年龄统计都有记载

明初黄册(全国户口名册)与鱼鳞册(全国土地图籍)

西方国家:

公元前3050年埃及建造金字塔。为征收建筑费用,对全国人口进行普查和统计

亚里士多德时代。统计在卫生、保险、国内外贸易、军事和行政管理方面的应用,都有详细的记载

伯努利等人提出了“大数定律”,奠定了使用数据推导规律,并用于决策的基础

概率是频率的稳定值

通过样本的观察可以推测出实际情况

数据分析与统计的应用——格朗特与死亡公报

统计学领域的第一个经典文献《Natural and Political Observations Made upon the Bills of Mortality》

创制了第一张生命表《Life Table》,计算期望寿命

试图通过建立和生成模型来分析和描述黑死病的传播

开创性提出了在不确定性条件下做出决策所需要的关键理论概念:抽样、平均数对未来事件的概率的置信度等等。使得统计分析成为一门科学

根据死亡数据批判了一个谬论——瘟疫总是伴随着新王朝的开始

做大数据可以利用现有数据对世界上的偏见进行纠正

生命表《Life Table》奠定了生存模型的发展,是现代顾客生命周期管理的建模基础

数据分析与统计的应用——斯诺与霍乱

斯诺认真访问了有霍乱患者的家庭,详细登记患者的各种情况,统计得出:

霍乱是通过饮用水进行传播的

将病例的分布画在一张图上

伦敦霍乱爆发地图成为数据可视化的开山之作

 

第三章 近代美国计算技术的发展与应用

数据库的起源——打孔卡

1880年美国人口普查的数据全靠手工处理,历史7年才得出最终结果

1880年代,美国人口普查局职员霍列瑞斯发明了用于人口普查数据的穿孔卡片及机器,并用于1890年美国人口普查,仅6周就完成了统计

每一张卡片代表一个公民的所有信息

一台机器可代替500人工作

霍列瑞斯创建的公司,发展为今日的IBM

 

美军海军面对日本飞机自杀性攻击

美军舰队需要采取何种战术:

遇袭时该不该实施机动?

如果机动,应该如何机动?

最有效的机动样式是什么?

收集作战数据、研究对策:

大型舰只:

大幅度机动遭命中率22%,明显小于不采取机动49%

大幅机动防空武器命中率78%,不机动时74%

小型舰只:

大幅度机动遭命中率36%,高于不采取机动26%

大幅机动防空武器命中率59%,略低于不机动时的66%

基本战术:

大型舰只应采取高速、满舵等大幅度机动,小型舰只应采取缓慢转向灯小幅度机动

舰只机动时,视情将适当部位对准来袭方向,同时要充分发扬防空武器的精准杀伤效能

对于高空俯冲攻击,舰只机动时,应使舰舷对准来袭方向;对于低空俯冲攻击,舰只机动时,应使舰舷躲避来袭方向

使用战术后:

采用此战术,命中比是29%

采用其他战术,命中比是70%

 

第四章 商业智能与营销管理理论的兴起

罗伯特-麦克纳马拉

加入美国陆军航空队参加二战,职责是运用统计方法帮助空军评估和改进轰炸机的使用效率:

轰炸机放弃任务率高达20%,原因是飞行员害怕

在轰炸东京时,要求B-29降低到5000英尺高空投放炸弹

单次死亡率增高,但精准性提高,降低出勤次数

将现代管理引入福特,用数量方法控制成本和产出:

顾客画像。有钱的人买进口车,福特开始生产经济型轿车

数据表明行车事物最多是机械故障,投资改善

数据表明撞车后造成死亡最大的原因是方向盘挤压胸口,发明新方向盘技术加保险带

在福特成功后,北美更多企业开始利用数据进行决策

 

关系型数据库之父——埃德加-科德

1970年IBM的埃德加-科德(1981年图灵奖获得者)发明了跨时代的著名论文“A Relational Model of Data for Large Shared Data Banks”,开启了关系型数据库的时代

基于关系型数据库的系统开始大量地应用于企业业务

在计算机地辅助下,人类处理信息地速度空前地加快了

 

商业智能的出现

1958年,IBM研究员Hans Peter Luhn将商业智能定义为:能够理解所呈现的事实之间的相互关系,从而引导行动朝着预期目标前进的能力

1970年代,“商业智能”随着用于分析商业和操作性能的新出现的软件和系统的兴起,它的受欢迎程度也越来越高

BI商业智能大量应用于关系型数据库,并逐渐发展出数据仓库的概念

目前的商业智能是由AI增强的商业决策系统,未来随着强人工智能的应用而增强。AI本身的算法可以提高BI系统的算法并对其优化

 

商业营销理论的发展

1970年代,市场营销学开始快速发展

1972年,营销学之父,菲利普-科特勒教授出版了《营销管理》一书,提出4P's理论,强调企业的发展取决于市场和顾客,而不是由企业的自主愿望驱动的

生产导向阶段

产品导向阶段

市场导向阶段

消费者导向阶段

在管理理论的指导下,数据被大量应用到企业管理的方方面面

市场研究公司开始出现,企业的数据文化开始培育

随着顾客数据原来越全面,4C’s理论,要求对顾客进行全方位的了解

营销理论的发展在改变着数据技术的发展和应用,同时数据技术的发展也在改变着营销理论

 

 

第五章 大数据出现的标志性事件

互联网的崛起

1991年:Tim Berners-Lee定义超文本规范,标志着万维网(World Wide Wed)的诞生

1998年:从这一年开始数字存储比纸张成本更低

1998年:谷歌搜索首次亮相,成为搜索互联网数据的工具

数据大爆炸开启

2004年:始于出版社经营者O‘Reilly和MediaLive International之间的一场头脑风暴论坛,Web 2.0诞生,即用户生成的Web,其中大部分内容将由服务的用户提供,而不是服务提供者本身

2004年:Facebook这样的社交软件开始出现

2005年:Hadoop开源框架被提出,专门用来存储和分析大数据集。它的灵活性使它对管理非结构化数据(语音、视频、原始文本等)特别有用,我们正在越来越多地生成和收集这些数据

 

第六章 大数据时代

大数据的时代来临

零售:实体面临电子商务的冲击影响是巨大地,传统零售业是门店多、商品多,现在还要加上数据多。为了生存,必须从传统零售转为科技密集型企业

美国第二大零售商塔吉特:每个顾客都有一个自己的用户ID,会记录在塔吉特购买的商品、时间、位置

体育:电影《点球成金》

人工智能小秘书:

看马云怎么说:数据时代,计算将是生产力、数据将是生产资料、互联网将是生产关系

 

机器学习的革命性突破

李飞飞和她的团队制作的数据集名为ImageNet

通过一千多万张有标注的图片,和强大的机器性能,基于深度学习的图像识别率,在2015年超越了人类

证明了更庞大的数据可以带来更好的决策,比专注于更优的算法更优

 

 

第七章 大数据分析人才培养

6步成为数据科学家

1、完成大学教育,具备数学、统计、计算机等相关技能,或掌握某一行业知识的同时具备一定数据处理能力

2、学习大数据相关的软件,如业界流行的R、Python、Java、Hadoop、SAS等

3、理解数据库、RDS、OTS、ADS、ODPS及数据质量控制

4、掌握数据处理、计算、可视化和报表制作,数据项目管理

5、学习算法和数据挖掘技术,并应用到行业的实际场景

6、提升到大数据的级别,成为数据科学家

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值