自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学,机器学习,深度学习,数据挖掘的联系

一.统计学是什么?统计学是一门从事数据采集、整理和分析的方法论科学,其目的是探索数据内在的规律性,以达到对研究总体的科学认识。二、机器学习是什么?机器学习(Machine Learning)是计算机科学的子领域,也是人工智能的一个分支和实现方式。机器学习主要的理论基础涉及概率论、数理统计、线性代数、数学分析、数值逼近、最优化理论和计算复杂理论等,其核心要素是数据、算法和模型。三、深度学习是什么?深度学习是机器学习的一种方法,深度学习的典型应用是选择数据训练模型,然后用模型做出预测。

2021-11-05 12:24:47 653

原创 YARA的工作机制

用户编写客户端应用程序向YARA提交应用程序 YARA中的ResourceManager负责接收和处理来自客户端的请求,为应用程序分配一个容器,在该容器中启动一个ApplicationMaster. ApplicationMaster被创建后会首先向RsourceManager注册。 ApplicationMaster采用轮询的方式向ResourceManager申请资源。 ResourceManager以“容器”的形式向提出申请的ApplicationMaster分配资源。 在容器中...

2021-11-03 01:28:02 255

原创 HDFS的block(块)和split(切片)的区别

HDFS block是数据的物理表示,而Split是block中数据的逻辑表示。 一般,split size就等于HDFS的block size。 一个split可以包含多个blocks,也可以把一个block应用多个split操作。

2021-11-02 23:05:42 187

原创 节点距离计算

PS:节点距离就是两个节点到达最近的共同祖先的距离总和1.在同一节点上,节点互相之间的距离当然是0,2*0=02.在同一机架上的不同节点,它们的共同祖先是他们对所属这个机架,并且这两个节点到机架的距 离都是1,所以这两个节点的距离为1+1=2。3.在同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到 这个机架(距离1),然后到达集群(距离2),所以两个节点的距离为2+2=4。4.在同一数据中心的不同集群上的节点,它们的共同祖先是数据中心,...

2021-11-02 21:49:42 378

原创 HDFS读数据流程

1.客户端给NameNode发起文件下载请求。2.NameNode返回文件存储所在的datenode block块信息。3.客户端根据拿到的block信息与距离最近的切片所在datanode建立通信通道,获取文件切片。4.Datenoe将节点上的切片信息传输给客户端。5.如果没有获取拿到的所有切片信息,按就近原则与其他切片副本所在的datanode建立通信通道,获取该节点的切片。如此重复,直到获取到所有的切片信息。6.客户端拿到所有的切片后,将切片组装为完整的文件。...

2021-11-02 20:48:04 80

原创 HDFS写数据的过程

1.客户端首先通过分布式文件系统创建一个文件,并以名称节点中来创建命名空间新文件。2.名称节点通过多种的验证来请求客户端创建文件,创建成功时分布式文件系统将返回文件系统数据流给客户端写数据。这时产生的数据流对象将被客户端用来处理数据节点和名称节点间的通信。3.客户端将会调用文件系统数据输出流的Write()函数,向对应文件写入数据。4.当客户端写入数据时,文件系统输出流会将文件分割成包,然后放入“数据队列”中。数据流系统将会将这些小文件放入数据流中,并请求数据节点把分割包分配并存放副本。这时将会

2021-10-26 21:35:02 391

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除