数据科学知识点

数据科学知识点总结

1.数据科学是基于计算机科学(数据库、数据挖掘、机器学习等)、统计学、数学等学科的一门新兴的交叉学科,也是指以数据为中心的科学
2.数据类型:离散型、连续性、符号型、文本型
3.标志性阶段:数字和文字的出现,使古人更加明确的来记录数据
电子计算机的出现,人类和数据的关系进入了第二个时代
互联网的出现,人类和数据的关系进入了第三个时代
大数据时代的来临,人类和数据的关系进入了第四个时代
4.电子元器件:A:电子管 B:晶体管
C:小规模中规模集成电路 D:大规模或超大规模集成电路
5.数据单位数量级进制:
1KB=1024B
1M=1024K
1G=1024M
1T=1024M
1P=1024T
1E=1024P
1Z=1024E
1Y=1024Z
1N=1024Y
1D=1024N
6.数据结构:结构化、半结构化、非结构化
7.大数据四大特征:速度快、数据量大、价值密度低、类型多
8.算法:是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,它代表着用系统的方法描述解决问题的策略机制。
不同的算法可能用不同的时间、空间或效率来完成同样的任务。
一个算法的优劣可以用空间复杂度(Space Complexity)与时间复杂度(Time complexity )来衡量。
9.数据清洗:指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。、
10.脏数据:然而,当今现实世界中的数据库极易受到噪声数据、空缺数据和不一致性数据的侵扰,多数为“脏”数据。
11.数据仓库:Data Warehouse,可简写为DW或DWH。它是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。
它是单个数据存储,出于分析性报告和决策支持的目的而创建。
数据仓库是面向主题的 、集成的、相对稳定的、反映历史变化的数据集合,目的在于支持决策
12.人工智能:(Artificial Intelligence) ,缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

13.商业智能:(BI,Business Intelligence)。它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
14.云计算 (cloud computing)是通过网络以服务的方式为用户提供非常廉价的IT资源。云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
15.物联网(IoT:The Internet of Things)是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制
16. 大数据技术的两大核心:分布式存储GFS\HDFS
分布式处理 MapReduce
17.大数据物联网云计算之间的关系:
在这里插入图片描述18.谷歌三宝:GFS、MapReduce、 BigTable
19.商业模式:B2B:商家对商家
B2C:商家对人
O2O:线上对线下
C2C:人对人
20.支持度:S(A-B)=N(A&B)
B
置信度:C(A-B)=N(A&B)
N(A)
提高度:L(A-B)=P(A&B)
P(A).P(B)
21.美式购物篮分析:这里把找出购物篮中商品之间关系的方法称为“美式购物篮”分析法,这种方法适合应用于类似沃尔玛这样的大卖场,用于找出不同陈列区域商品之间的关系。英国的Tesc连锁超市、Safeway连锁超市也都是这种购物篮分析的高手。
22.日式购物篮分析:所以,日本人的重点是分析所有影响商品销售的关联因素,比如天气、温度、时间、事件、客户群体等,这些因素称为商品相关性因素。
日本人对于所有影响商品销售的关联因素研究得非常透彻,因此,日本才会有碳酸饮料
指数、空调指数、冰激凌指数。与商品之间的关联关系相比,日本7-11便利店认为这些关联因素更为重要。由于这是日本7-11便利店大量采取的方式,这种方法也被称为“日式购物篮”分析法。
23.推荐系统系列之基于人口统计学的推荐
在这里插入图片描述
24.推荐算法之基于内容的推荐
在这里插入图片描述
25.基于用户的推荐
在这里插入图片描述
26.基于项目的协同过滤推荐机制的基本原理
在这里插入图片描述
27.(第一范式)在研究方法上,以归纳为主,带有较多盲目性的观测和实验。寻找因果联系的科经验科学:人类最早的科学研究,主要以记录和描述自然现象为特征,又称为“实验科学” 学归纳法,其方法是先观察,进而假设,再根据假设进行实验。如果实验的结果与假设不符合,则修正假设再实验。经验科学的主要研究模型是:科学实验。
28.理论科学:。科学家们开始尝试尽量简化实验模型,去掉一些复杂的干扰,只留下关键因素(例如:“足够光滑”、“足够长的时间”、“空气足够稀薄”),然后通过演算进行归纳总结,这就是第二范式:理论科学。理论科学偏重理论总结和理性概括,强调较高普遍的理论认识而非直接实用意义的科学。在研究方法上,以演绎法为主,不局限于描述经验事实。
理论科学的主要研究模型是:数学模型。
29.计算科学:利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及,人们可以对复杂现象通过模拟仿真,推演出越来越多复杂的现象,典型案例如模拟核试验、天气预报等。
随着计算机仿真越来越多地取代实验,逐渐成为科研的常规方法,即第三范式:计算科学。计算科学的主要研究模型是:计算机仿真和模拟
30.数据密集型科学:数据密集范式理应从第三范式中分离出来,成为一个独特的科学研究范式。也就是说,过去由牛顿、爱因斯坦等科学家从事的工作,未来完全可以由计算机来做。这种科学研究的方式,被称为第四范式:数据密集型科学。数据密集型科学由传统的假设驱动向基于科学数据进行探索的科学方法的转变。数据密集型科学的主要研究模型是:数据挖掘和机器学习,特别是机器学习。
31.第四范式与第三范式,都是利用计算机来进行计算,区别是什么呢?
基于大数据的第四范式,则是先有了大量的已知数据,然后通过计算得出之前未知的理论。
关联关系是大数据的本质特征之一。
第三范式是“人脑 + 电脑”,人脑是主角;而第四范式是“电脑 + 人脑”,电脑是主角。进而由此引发的新一代人工智能技术。
32.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。
33.在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成
34.解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。
35.在这里插入图片描述
36.深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。
遍历的路径:A-F-G E-H-I B C D
37.宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。还是以上面的图为例:
遍历路径:A-B-C-D-E-F G H I
38.① 等深分箱 (binning):
按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。
39.②等宽分箱 (binning):
在整个属性值的区间上平均分布,即每个箱的区间范围设定为一个常量,称为箱子的宽度。
40.Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。
Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce
41.HDFS、SPARK、MAPREDUCE
42.为什么要进行数据清理?有哪些方法:(1)因为现实世界的数据一般是脏的、不完整的和不一致的。(2)填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性。
43.在进行数据集成时需要注意什么?模式集成问题;冗余问题;数据值冲突检测与消除。44.数据更换的目的和方法?目的:将数据转换成适合数据挖掘的形式。方法:最小-最大规范化;零-均值规范化(z-score规范化);小数定标规范化。
45数据归约的方法?数据立方体聚集;维归约;数据压缩;数值归约;离散化和概念分层生成。

  • 19
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 12
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

铅华殿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值