《数据科学》第二章自学报告

基于《数据科学理论与实验(第二版)》(朝乐门著)的学习感悟和总结。

第二章 理论基础

2.1 数据科学的学科地位

从学科定位来看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处。
在这里插入图片描述

2.1.1数学与统计知识

“数学与统计知识“”是数据学科主要理论基础之一。但是,数据科学与(传统)数学和统计学区别的,主要体现在以下四个方面。
1数据科学中的“数据”并不仅仅是“数值”,也不等同于“数值”。
2.数据科学中的“计算”并不仅仅是加减乘除等”数学计算“,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型。
3.数据科学关注的不是“单一学科”的问题,超出了数学、统计学、计算机科学等单一学科的研究范畴,进而涉及多个学科(统计学、计算机科学等)的研究范畴,他强调的是跨学科视角
4.数据科学并不仅仅是“理论研究”,也不是纯“领域实务知识”,他关注和强调的是两者的结合

2.1.2黑客技能与精神

这是指数据科学家的主要精神追求和技能要求:大胆创新、喜欢挑战、追求完美和不断改进。
这里我们要区分两个概念:黑客(Hacker)与骇客(Cracker)
黑客:是一个基于喜欢发现和解决技术调整、攻击计算机网络系统的精通计算机技能的人的称号。其与闯入计算机网络系统,目的在于破坏和偷窃信息的骇客不同
骇客:是一个闯入计算机系统和网络试图破坏和偷窃个人信息的个体,与没有兴趣作破坏只是技术上的挑战感兴趣的黑客相对应。

显然,我们这里的黑客指的是热衷挑战、崇尚自由、主张信息共享和大胆创新的精神,与常人理解不同的是,黑客遵守道德规则行为规范

补充一下黑客道德准则:
在这里插入图片描述
链接: 黑客道德准则.

2.1.3领域实务知识

领域实务知识具有显著的面向领域性,不同的领域的其领域实务知识不同。
例如,如果我准备着手做商务智能,可能我需要的领域知识是金融学
如果我准备做图像识别,那么我可能需要的领域知识是**图像处理与分类方面;**如此类推,大数据技术+领域实务知识=应用数学科学(意思是数据可的实际应用)

2.1.4总结

总之,数据科学不是一个以特定理论为基础发展起来的,而是包括数学与统计学、计算机科学技术、数据工程和知识工程、也定学科领域的理论在内的多个理论相互融合后形成的新兴学科。
通常,把数据科学的理论基础进一步具体化为四个方面:
1.统计学
2.机器学习
3.数据可视化
4.(某一)领域实务知识与经验。

2.2 统计学

2.2.1统计学与数据科学

统计学是数据科学的主要理论基础之一。
数据科学的理论、方法,技术和工具往往来源于统计学,实际上,第一篇以“数据科学(Data Science)”为标题的学术期刊论文及时由统计学家W.S.Cleveland完成的(后来又取得了计算机学教授的称号,因为其在计算机科学上做出贡献较多故一般称其为计算机科学家,但是发表论文的时候是统计学家)
在这里插入图片描述

2.2.2数据科学中常用的统计学知识

2.2.2.1才能够行为目的与思维方式看

从行为目的与思维方式看,数据统计方法可以分为两大类——描述统计和推断统计。如下图所示:

统计方法
描述统计
推断统计
集中趋势分析
离中趋势分析
相关分析
采样分布
参数估计
假设检验

描述统计:采用图标或数学方法描述数据的统计特征
推断统计:在数据科学中,有时需要通过“样本”对“总体”进行推断分析。常用的推断方法有两种:参数估计和假设检验。如下图所示:
在这里插入图片描述
两者的区别:
在这里插入图片描述

2.2.2.2从方法论角度看

从方法论角度看,基于统计的数据分析方法又可分为两个不同的层次——基本分析方法和元分析方法,如图所示:

统计方法
基本分析法
元分析法
回归分分析
分类分析
聚类分析
关联规则分析
时间序列分析
加权平均法
优化方法

基本分析法具体内容: 基本性分析法详解.

2.3 机器学习

2.3.1机器学习与数据科学

机器学习为数据科学中充分发挥计算机的自动数据能力。。。。(此处省略一大堆定义)
直接来看它到底是什么以及怎么用。
基本思路:
在这里插入图片描述
一些经典应用
直接上AlphaGo
在这里插入图片描述
阿尔法围棋用到了很多新技术,如神经网络、深度学习、蒙特卡洛树搜索法等,使其实力有了实质性飞跃。美国脸书公司“黑暗森林”围棋软件的开发者田渊栋在网上发表分析文章说,阿尔法围棋系统主要由几个部分组成:一**、策略网络(Policy Network)**,给定当前局面,预测并采样下一步的走棋;二、快速走子(Fast rollout),目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍;三、价值网络(Value Network),给定当前局面,估计是白胜概率大还是黑胜概率大;四、蒙特卡洛树搜索(Monte Carlo Tree Search),把以上这四个部分连起来,形成一个完整的系统

《Dota2》openAI挑战赛
《DOTA2》开启了一段短暂的Open AI挑战热潮,全民挑战于太平洋时间4月18日下午6点(北京时间4月19日上午9点)开放,4月21日结束。Open AI取得了7215胜42负的战绩,胜率高达99.4%
在Dota2的比赛中,“AI”直接碾压了人类的冠军战队,我们不得不认识到AI的强大。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
甚至在比赛刚开始,AI的预测胜率就无限接近百分百

2.3.2数据科学中常用的机器学习知识

常用机器学习类型:
在这里插入图片描述
这这些学习方法中,我最想介绍的是人工神经网络

它是一种仿生技术,模仿人类的神经网络的架构,来搭建学习模型。
在这里插入图片描述

在这里插入图片描述
相比于传统的机器学习,深度学习最大的优势就是我们无需为样本设置特征值,可以省去特征工程这一步骤,却能够得到更好、更精准的模型。
深度学习在如今的互联网工业中有着广泛的应用:
人脸识别
在这里插入图片描述
语音识别
(这里的图片是小米的小爱同学)
在这里插入图片描述

无人驾驶汽车
在这里插入图片描述

其实大家和深度学习并不陌生,它已经穿插进我们的日常生活:公司上下班的人脸识别打卡,手机自带的语音助手,又或者qq上的图片转文字,都是深度学习在默默做出贡献。

2.4 数据可视化

为什么要数据可视化?

1.视觉是人类获得信息的主要途径,这一点毋庸置疑。
2.相对于统计分析,数据可视化的主要优势体现在两个方面:
数据可视化处理可以洞察统计分析无法发现的结构和细节。
数据可视化处理结果的解读对用户认知水平的要求较低。
3.可视化能够帮助人们提高理解与处理数据的效率。

其实对于我而言,数据可视化就是一种更为直观的表达方式,虽然直接看生数据也能看得懂,但是很难一目了然,而数据可视化就是来解决这些问题的。也正如什么第二点中提到的一样,它也能使别更快地理解,就好像两个不同语种的人交流,叽叽喳喳半天说不明白个啥,但是一比划就明白了,原来是饿了想吃东西。

一些常用数据可视化工具

强烈推荐:import matplotlib
直接python调库,然后开始学习使用。
折线图曲线图饼状图样样精通
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
matlab软件
可视化鼻祖级别软件,python那个库就是模仿这个,做数学必备软件
在这里插入图片描述
其他
教材推荐的:
Tableau: 官网链接.
其不仅支持数据可视化,还可以做到数据故事化,属于是灰常不错!
核心技术–>VizQL:VizQL是一种用于查询、分析和可视化的数据语言。VizQL从斯坦福大学的Polaris系统演变而来,该系统将查询、分析和可视化结合到一个单一的框架中,是一种用于描述表格、图表、图形、地图、时间序列和图表的形式化语言。

以上就是我的第二章自学报告
总结;在学习中,我收获最多的是杜深度学习的应用,其实我知道它早就存在于我们的生活,只是没想到已经存在的这么深,就连游戏领域也被其渗入,攻破。有时候不仅真的会思考阿西莫夫提出的那些问题,人工智能的未来一定是安全的吗?但是转眼又看到那些奇奇怪怪仿佛失败AI例子,又才发现,虽然AI如今大火大热,但是也才刚刚起步罢了,也许会有问题会有危险,但是肯定的是,如果不去尝试,那么什么都没有。
也就正如艾克所说的:“我宁愿犯错,也不愿什么都不做!.

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值