大数据技术博客
vx 公众号:抖码课堂
开始的地方
这个作者很懒,什么都没留下…
展开
-
云计算、大数据和人工智能之间的关系
大家好,这里是抖码课堂,抖码课堂专注提升互联网技术人的软硬实力。这篇文章我们从下面的内容来聊下云计算、人工智能、大数据技术三者之间的关系 探讨什么是云计算,在这里分别探讨云计算的 IaaS、PaaS 以及 SaaS 探讨云计算和大数据技术之间的关系 探讨大数据技术和人工智能之间的关系 接下来,我们进入主题IaaS我们一台电脑或者服务器包括下面的几种资源: 计算型资源:CPU 和内存 存储型资源:磁盘 网络宽带资源,也就是我们常说的宽带的速度原创 2020-09-05 07:23:47 · 2636 阅读 · 0 评论 -
Hadoop 3.x 详细安装步骤
## 写在前面如果你想通过这篇博客在本地成功搭建 Hadoop 集群的话,你需要先跟着视频课程 [三天入门大数据实操课程](https://www.bilibili.com/video/BV1De411x72P) 在本地搭建集群环境,在这个视频课程中你需要学习的章节是:- 课程目标- VMWare WorkStation 安装- 创建虚拟机- 安装 Centos 7 操作系统- Ce...原创 2020-04-28 22:36:16 · 3075 阅读 · 1 评论 -
大数据技术思想入门 (五):分布式计算特点
如果你不喜欢阅读文字的话,可以选择滑到最后看 视频讲解 哟~~~前面我们花了四篇文章详细的探讨了分布式存储,有了分布式存储的概念后,我们就可以基于分布式存储的数据来进行分布式计算了,这篇文章我们来探讨分布式计算的原理。单机版本的计算我们可能非常的熟悉在一台机器上的计算,比如,在一台台机器上存储着一个包含有数据的文件,我们现在需要计算这个文件有多少行记录,这个就是一个很简单的计算,这个计算有输入、计算和输出。输入就是文件,输出就是这个文件的记录数,计算的过程是: 先打开文件 初原创 2020-08-26 07:43:39 · 1096 阅读 · 1 评论 -
大数据技术思想入门(四):分布式文件的元数据是怎么存储的
如果你不喜欢阅读文字的话,可以选择滑到最后看视频讲解哟~~~我们知道主节点主要存储的元数据包括: 所有从节点的元数据信息,包括从节点的数量、每个节点的 IP 地址以及使用情况等信息 所有分布式文件的元数据信息,包括文件名、大小等基础信息,还有文件对应的数据块的元数据信息 对于存储的从节点的元数据信息很好理解。就是当从节点启动的时候,会将自己的 IP 地址、自己的磁盘总大小以及使用情况告诉主节点。对于文件的元数据的存储和管理相对来说复杂点,这篇文章我们就要说明白主节点中存储的文..原创 2020-08-25 08:14:59 · 2290 阅读 · 0 评论 -
大数据技术思想入门(三):分布式文件存储的流程
如果你不喜欢阅读文字的话,可以选择滑到最后看视频讲解哟~~~进程和 RPC在上一篇文章中,我们讲解了要解决好大数据集的存储问题,需要引入一个主从结构的集群,其中,主服务器用于存储元数据,从服务器用于存储真正的数据块数据。在这里,我们还需要了解两点: 既然 master 和 slave 服务器要管理存储的服务器,那么,必须在服务器中启动相应的进程,比如在主服务器上需要启动一个管理元数据的进程,在从服务器中需要启动一个管理数据块数据存储的进程。 master 服务器和 sl...原创 2020-08-24 07:17:19 · 509 阅读 · 0 评论 -
大数据技术思想入门(二):分布式存储集群特点
如果你不喜欢阅读文字的话,可以选择滑到最后看视频讲解哟~~~在上一篇讲解分布式存储特点的文章中,我们得出分布式存储的特点有: 数据分块分布式的存储在多台服务器上 每个数据块可以冗余存储在多台服务器中,可以提高数据块的高可用性 可以看出,存储大数据集需要大量的服务器,而且每台服务器上又会存储成千上万的数据块,那么现在问题又来了,主要有两个问题: 这么多的服务器和数据块,该怎么管理呢?也就是说,一共有多少台服务器?每台服务器上总的磁盘容量多大呢?每台服务器剩余多少磁盘容量? ..原创 2020-08-22 17:22:08 · 810 阅读 · 0 评论 -
大数据技术思想入门(一):分布式存储的特点/Java提高/Hadoop
如果你不喜欢阅读文字的话,可以选择滑到最后看视频讲解哟~~~分布式存储在前面讲解大数据技术发展的文章中,我们可以得出以下的结论:大数据技术需要解决的问题就是对大量数据的存储和处理,而分布式存储又是大数据技术的基础。所以接下来,我们来学习下分布式存储的原理。我们带着问题来学习,现在有这么一个问题:给你 5 PB 的数据集,你会怎么存储呢?1PB=1024TB,1TB=1024GB,1GB=1024M一般的话,一台个人电脑的磁盘容量是几百个 GB,最多...原创 2020-08-21 18:35:04 · 444 阅读 · 0 评论 -
大数据技术发展(三):Spark 真的代替 Hadoop ? 选择 Spark 还是 Flink ?
大家好,这里是抖码课堂,抖码课堂专注提升互联网技术人的软硬实力。今天我们来聊聊 Hadoop、Spark、Flink 这些大数据技术的选择问题。随着时间的推移,大数据的核心技术也在不断的发展,除了 Hadoop 的发展,其中还有两个最引人注意的大数据技术:一个是 2012 年发布的 Spark;另一个是 2014 年发布的 Flink;我们如果想正确的了解到底是选择 Hadoop、还是选择 Spark、还是选择 Flink 之前,我们需要搞明白一个概念,那就是大数据领域中的批处理和实时流处理。原创 2020-08-17 16:22:29 · 1506 阅读 · 0 评论 -
大数据技术发展(二):Hadoop 技术生态圈的发展
大家好,这里是抖码课堂,抖码课堂专注提升互联网技术人的软硬实力。google 的"三驾马车"我们在上一篇文章<大数据技术起源>中知道了,google 为了解决数据量越来越大的问题,开发了分布式存储技术 GFS 和分布式计算技术 MapReduce,这两个技术奠定了大数据技术的发展。如果 google 对这两个技术不开放出来的话,它的影响力也不会很大,可能很多人就不会知道这两个技术,但是 google 分别在 2003 年和 2004 年将这两个技术以论文的方式发布出来了,从而奠定开源大数原创 2020-08-17 16:16:22 · 433 阅读 · 0 评论 -
大数据技术发展(一):大数据技术的起源
大家好,这里是抖码课堂,抖码课堂专注提升互联网技术人的软硬实力。今天我们来聊聊大数据技术的起源,这里我先告诉大家,大数据技术实际上是起源于搜索引擎技术的,所以我们需要先简单了解下搜索引擎的工作原理。网络搜索引擎我们都用过 google 和百度,我们在 google 和百度上可以通过关键字搜索到在网络上所有我们想要的内容。那你有没有想过下面的问题: 当我们输入关键字,然后点击搜索的时候,google 和百度为什么能在很短的时间内返回我们想要的结果呢? 搜索返回的结果有很多条,它们又原创 2020-08-17 16:16:35 · 3238 阅读 · 0 评论