大数据
文章平均质量分 94
办公模板库 素材蛙
命数如织 当为磐石
展开
-
大数据基础课18 数据中台:用大数据赋能业务
上节课我们介绍了数据安全相关的问题和解决方案,在我们的大数据体系中,有那么多的数据、无数的流程和纷繁复杂的工具和应用,似乎每一个环节都会受到数据安全的威胁。随着业务的不断扩张,部门越来越多,项目越来越大,每一个部门每一个项目都需要各自不同的数据,也会产出各自不同的数据,如果没有很好的统一协调管理,那么处在大数据之下的每一个人都像盲人摸象一样,各自看到的只是大数据的一部分而不是一个整体。这样我们在工作中就不能充分利用内部的数据,部门间的沟通和配合变得越发困难。假设我们是在一个做内容的公司,有着图片、视频、文本原创 2022-10-12 10:54:51 · 949 阅读 · 0 评论 -
大数据基础课17 大数据环境下如何保护隐私
这节课我们主要讨论了有关数据安全的问题以及应对数据安全问题都有一些什么样的技术方案。大数据体系虽然很好,给我们的生活带来了很多便利,但是它带来的安全威胁同样十分巨大,不管是在建设大数据体系的公司,还是接受大数据福利的个人,都需要对数据安全问题有清醒的认识,做好防范准备和应对措施。最后,我也基于自己的经验讲了一些个人该如何注意隐私保护的方法,虽然说个人在大数据的数据安全方面处于被动的地位,但是采取一些必要的措施,以及注意不要贪小便宜,还是可以把风险降到比较低的状态,希望可以对你有一些帮助。原创 2022-10-12 10:51:20 · 1727 阅读 · 0 评论 -
大数据基础课15 如何快速搭建一个推荐系统?
这一讲我们大体介绍了推荐系统的整体框架,结合大数据体系,推荐系统已经越来越成熟。在如今的生活中,推荐系统已经覆盖了我们所使用应用的大多数场景,并且还在不断应用于新的场景中,推荐系统逐渐由一个高端技术变成了标准配件,没有推荐系统的应用反而不那么常见。如果你想实现一个简单的推荐系统,可以使用规则来进行召回排序;使用简单的 KNN 算法或者决策树算法也可以实现推荐系统;当然,现在基于深度模型的召回排序算法也非常流行。在大数据工具中,像Mahout也提供了推荐引擎可以方便使用。原创 2022-10-12 10:48:46 · 773 阅读 · 0 评论 -
大数据基础课14 数据可视化:如何直观地“看见”数据?
这节课我介绍了数据可视化的相关知识。数据可视化是技术和艺术的结合产物,通过把原本冷冰冰的数据通过图形化的手段展示出来,可视化增加了信息的传递和沟通效率,而数据则赋予了图形意义。数据可视化看似与我们开发人员离得比较遥远,但实际上,开发人员也要学会使用这些图形来加快自己的开发进度,或者借助可视化的优势汇报工作、展示能力。总的来说,要做数据可视化并不是一个很困难的事情,这里面有诸多成熟的工具供我们使用,但是想要把数据可视化这件事情做好,却不是那么容易的,像选型、配色、心理把握都有着很多的讲究。原创 2022-10-12 10:46:06 · 1034 阅读 · 0 评论 -
大数据基础课13 如何深入分析电商数据中的价值?
在算法策略工程师的日常工作中,一般不会独自去承接一个像“发现好货”这么具体的产品形态,但是要构建“发现好货”,必然少不了算法策略同学在背后的身影。比如在这个例子中,算法策略在后面要承担该场景下商品选品策略,承担召回排序策略,甚至是对文案和图片的选取策略,那么我们从一个产品视角出发,对要构建的产品进行全面详细分析,有助于我们在后面针对性地建设算法模型。这节课,我介绍了在电商场景下进行分析的相关指标,其中 PEST 分析是外部环境分析,接着 SWOT 是分析判断产品的机遇和威胁,优势与劣势。原创 2022-10-12 10:44:25 · 427 阅读 · 0 评论 -
大数据基础课12 计算机视觉 VS 自然语言处理,你选哪个?
如果你想动手实践一些深度学习项目,现在有很多框架可以使用,比如说谷歌的 TensorFlow、Facebook 的 PyTorch、百度的 PaddlePaddle,这些框架把很多深度学习所需要的底层建设进行了优化和封装,提供大量更加可用的 API,让深度神经网络的构建更加容易,这些框架中甚至给出了一些非常稳定的神经网络模型。针对很多任务搭建的神经网络或者训练好的模型,你也可以在 GitHub 上面寻找,经过简单的调整即可运行。有任何问题都欢迎在评论区与我沟通。原创 2022-10-12 10:40:51 · 509 阅读 · 0 评论 -
大数据基础课11 让你一看就懂的数据挖掘四大经典算法
这一讲是一个基础的数据挖掘算法介绍,可以说数据挖掘中的算法就是在模拟人的决策过程,从而获取数据中的知识。就像我在文中写的小例子,我观察到刚出生的孩子在观察世界时的一举一动其实与这些算法有着类似的过程,或者说这些算法本身也就是从人类认知世界的过程中抽象出来的。数据挖掘及其算法是大数据版图中一块重要的组成部分,收集来的数据到了这一步才开始真正发挥价值。通过算法,我们可以把原本价值密度低的数据处理成高价值的知识,相当于是一个萃取的过程。那这里,你可以举一个应用数据挖掘算法处理数据的例子吗?欢迎在评论区与我分享。原创 2022-10-11 16:16:41 · 864 阅读 · 0 评论 -
大数据基础课10 带你聊一聊标准化数据挖掘全流程
数据挖掘这个词或许我们经常会见到,但是到底什么是数据挖掘?有人觉得数据挖掘就是各种算法,有人觉得数据挖掘就是各种数据的计算。数据挖掘确实是一个涉及面非常广的词语,在我看来,数据挖掘更偏向于一种过程,而不是一种名词或者一个结果,比如说我们要为新闻网站上的新闻标注分类以方便用户查阅,当然可以让编辑或者运营人员人工地进行标注,也可以借助数据挖掘去发现分类与新闻的内在联系,从而为新闻自动标注类别。所以所谓的。原创 2022-10-11 16:15:32 · 604 阅读 · 0 评论 -
大数据基础课09 Spark 与 Flink 的爱恨情仇(上)
Spark 是用于大规模数据处理的通用分析引擎。当然,原文是英文的,这句是我翻译过来的。这句话非常简洁明了地讲解了 Spark 的功能,一个是针对大规模数据,一个是通用分析引擎。让我们简单回顾一下 Spark 的发展历程。在 2009 年,加州大学伯克利分校的 RAD 实验室(AMP 实验室前身)推出了 Spark 框架,并表明 Spark 是一个类似 MapReduce 的通用并行框架,可用来构建大型的、低延迟的数据分析应用程序。原创 2022-10-11 16:14:13 · 1999 阅读 · 0 评论 -
大数据基础课08 MapReduce 处理大数据的基本思想有哪些
这一讲,我们介绍了 Hadoop 中的另一个核心模块 MapReduce,并且动手运行了一个示例程序。MapReduce 的思想虽然非常强大,但是从 MapReduce 的硬伤可以看出来,MapReduce 已经不太适合互联网的需求,在实际的应用中,现在 MapReduce 已经被更加强大计算框架所替代,比如 Spark 和 Flink。在这一讲的学习和动手过程中,有任何问题都欢迎在交流区与我讨论。原创 2022-10-11 16:12:20 · 759 阅读 · 0 评论 -
大数据基础课07 云服务和中间件
离得远,远在云端的服务;不需要了解细节,藏在云后面的服务。所以,云服务就是互联网提供的各种服务器,计算、存储、数据库,甚至是大数据、人工智能服务,并且这些服务是弹性可伸缩、按需支付的。你不需要了解服务背后的实现细节,只需要知道它能够满足什么需求,并按需进行购买就可以了。和前面的技术和工具的课程比起来,这一讲更像是一节宣导课程。在这节课中我们介绍了什么是云服务,以及它可以提供一些什么样的能力。原创 2022-10-11 16:10:50 · 964 阅读 · 0 评论 -
大数据基础课06 HBae 和 Hive 你能分清楚吗?
在这一讲中,我比较简要地介绍了 Hadoop 体系里使用比较广泛的两个工具:Hive 与 HBase。表面上,它们都与 HDFS 存储有很强的关系,但是也有非常多的不同之处。它们所实现的功能和解决的问题也有很大的区别。在这一讲中,我主要是讲了它们的基本结构、优缺点和适用情况,没有涉及具体的使用。为了更好地让你在课后进行一些使用上的探索,这里布置一个小作业:在 Hive 中,我们通常会使用分区表来按时间段对数据进行存储,那么在创建一个按天分区的 Hive 表时该如何编写创建语句呢?原创 2022-10-11 16:07:42 · 261 阅读 · 0 评论 -
大数据基础课05 专为解决大数据存储问题而产生的 HDFS
这一讲我们讲解了 HDFS 文件系统,它是 Hadoop 体系两大核心基石之一,主要负责存储的部分。另外一部分解决计算问题的 MapReduce 我们会在《11 | MapReduce 处理大数据的基本思想有哪些》详细介绍。在介绍了 HDFS 的基础架构之后,我们安排了一个实践环节,也就是动手安装 Hadoop 系统,当然我们这里安装的是单机单节点,希望你也能够亲自去尝试一下,甚至是用虚拟机搭建一个小型的多机环境以熟悉 Hadoop 的实际情况,在此过程中有任何问题,都欢迎与我进行交流。原创 2022-10-11 15:46:42 · 336 阅读 · 0 评论 -
大数据基础课04 大数据开发必备工具和来源
这一讲,我为你系统地介绍了一下 Hadoop 体系。虽然处理大数据的框架并不是只有 Hadoop一种,但是 Hadoop 是免费的开源的,而且是当前应用最广泛的。它最强大的地方就在于能够利用最普通的机器解决了大规模数据存储和运算的问题。同时,Hadoop 在经过不断的发展之后也已经形成了自己的生态圈,很多不同的组件都可以与Hadoop 搭配使用。很多公司都基于 Hadoop 框架搭建起了自己的大数据处理体系。目前,免费的 Hadoop 版本主要有三个:一个是 Apache 版本,也就是最原始的发行版;原创 2022-10-11 15:26:10 · 409 阅读 · 0 评论 -
大数据基础课03 阿里美团这些大厂都在用什么大数据架构?
讲到这里,关于大数据思维的几个要点就介绍完了,这可能不完全,也可能不准确,因为我们的大数据体系也在飞速地变化和发展。但是这一讲中提到的几个思维方式的变化,是我在整个工作中感悟比较深刻的几点。当然了,这些思维方式也不是我提出来的,而是在前人的基础上,加入了一些我自己的解读,希望能够给你带来一点自己的思考。另外我在上文中留的小作业,希望你能思考下。并且有任何问题和心得,都可以在留言区留言。下一讲,我们开始讲解大数据框架的模块,到时见!原创 2022-10-11 14:59:24 · 1366 阅读 · 0 评论 -
大数据基础课02 从萌芽到爆发,大数据经历了哪些发展?
这一讲我们主要学习了大数据的发展过程。总的来说,大数据并不是一个特别的东西,而是在互联网时代必然的产物。从大数据概念的提出到现在有四十年的时间,但是我们可以预见,大数据的发展绝对不会止步于前,甚至可以说,大数据的发展才刚刚步入正常的轨道。同时,根据我自己的经验,列举了在当前互联网公司中,大数据相关的工作方向,如果你对其中的内容感兴趣,抑或是想入行大数据,可以选择一个方向深入地了解和学习。在此过程中,有任何问题都可以在交流区留言。希望通过这一讲的学习,你对大数据的了解又深入了一个层次。原创 2022-10-11 13:52:00 · 724 阅读 · 0 评论 -
大数据基础课01 如何在庞大的大数据体系中明确路径?
这一讲,我们以天气预报的变化为例,讲解了大数据的特点及工作环节。经过这一讲的介绍,我希望你对什么是大数据有了一个初步的印象,最好还能够有一些自己的思考。大数据这个词并不是单纯地表示数据量大,同时它还有很多其他的特点,并且形成了一个概念体系。虽然大数据到现在并不成熟、并不完善,但是它确实已经深入到我们生活的各个部分。当然,尤其对于我们这些在互联网行业摸爬滚打的人,大数据切切实实地在我们的工作中占据着举足轻重的地位。原创 2022-10-10 22:37:09 · 540 阅读 · 0 评论 -
大数据运维实战第二十九课 Hadoop 跨集群数据迁移应用实践
我们的 Hadoop 大数据平台已经运行多年,使用的版本是 CDH 5.8,平台上的各个组件(HDFS、Yarn、Hive、Spark)也都是基于这个版本的,但随着对 Hadoop 平台的深入使用,部分组件版本过低,有些新功能无法使用,这迫使我们必须要升级到新的版本。CDH 5.8 版本的 Hadoop 是基于 Hadoop 2.x 的,此次升级计划从 Hadoop 2.x 版本升级到 3.x 版本,相关依赖组件也一并升级。大数据平台升级方法常用的有两种:一种是在现有平台基础上升级;原创 2022-08-20 09:24:26 · 1008 阅读 · 2 评论 -
大数据运维实战第二十八课 大数据平台的硬件规划、网络调优、架构设计、节点规划
这一课时,我将向你介绍 Hadoop 大数据平台的硬件选型、网络方面的架构设计和存储规划等内容。要对 Hadoop 大数据平台进行硬件选型,首先需要了解 Hadoop 的运行架构以及每个角色的功能。在一个典型的 Hadoop 架构中,通常有 5 个角色,分别是 NameNode、Standby NameNode、ResourceManager、NodeManager、DataNode 以及外围机。其中 NameNode 负责协调集群上的数据存储,Standby NameNode 属于 NameNode 的热原创 2022-08-20 09:21:29 · 1042 阅读 · 0 评论 -
大数据运维实战第二十七课 Hadoop 平台常见故障汇总以及操作系统性能调优
本课时,我主要介绍了 Hadoop 大数据运维中,常见的运维故障以及解决问题的方法和思路;如果设置的 JVM 值已经很大,但还是出现该问题,则需要查看 NodeManager 运行日志,具体是什么原因导致的,需要具体问题具体分析,当然,最直接的方法就是重启此节点的 NodeManager 服务。有时候,你通过 Yarn 集群运行数据分析任务时,会发现这样一个问题:各节点的负载会不均衡(也就是任务数目不同),有的节点有很多任务在执行忙碌,而有的节点没有任务执行,那么如何平衡各节点运行的任务数目呢?原创 2022-08-20 09:19:56 · 1010 阅读 · 0 评论 -
大数据运维实战第二十六课 Yarn、HDFS、Kafka 内存调优策略以及性能瓶颈
Hadoop 性能调优是一项复杂烦琐、难度极大的工作,不仅要求对 Hadoop 本身有深刻理解,还涉及底层硬件、网络、操作系统、Java 虚拟机等方面的调优工作。Hadoop 性能调优,不仅靠运维,还需开发人员一起参与:运维人员负责为用户提供一个高效稳定的任务运行环境;开发人员则需要根据自己任务的特点写出好的程序,让任务快速、高效地完成。原创 2022-08-20 09:18:49 · 1086 阅读 · 0 评论 -
大数据运维实战第二十五课 HDFS 存储权限 ACL 控制策略以及与系统权限整合应用
普通的权限控制模式,有时候可能无法满足多用户、多环境的使用需求。例如,HDFS 上的一个目录 /user/user1/logs,此目录要求对 A、B、C 用户可读写,要实现这个需求,有以下两种方式。第一种方式是通过普通权限控制实现。首先,将 A、B、C 三个用户加入一个组中;然后将 /user/user1/logs 目录授权为 775 权限,这样,目录所属的组也就有写此目录的权限了。虽然这个方法能够实现此需求,但是权限过于大了,无法做到精细化控制,操作也过于烦琐。第二种方式是通过POSIX ACL实现。原创 2022-08-20 09:17:47 · 645 阅读 · 0 评论 -
大数据运维实战第二十四课 Yarn 资源调度 Fair Schedule 与 Capacity Scheduler 配置选型
在大数据平台运维中,会经常遇到。因为在公司内部,Hadoop Yarn 集群一般会被多个业务、多个用户同时使用,共享 Yarn 资源。此时,如果不对集群资源做规划和管理的话,那么就会出现 Yarn 的资源被某一个用户提交的 Application(App)占满,而其他用户只能等待;或者也可能会出现集群还有很多剩余资源,但 App 就是无法使用的情况。如何解决这个问题呢?此时就需要用到 Hadoop 中提供的。原创 2022-08-20 09:16:22 · 900 阅读 · 0 评论 -
大数据运维实战第二十三课 通过 Kafka Eagle 实现对 Kafka 消息队列的监控
由于 Kafka Eagle 比 Kafka Manager 更简单、更好用,所以这一课时将重点介绍 Kafka Eagle 这款 Kafka 可视化管理工具。是一款用来管理 Kafka 集群的可视化工具,它可以支持管理多个 Kafka 集群,还可以管理 Kafka 的 Topic(查看、删除、创建等),也可以对消费者状态进行监控,并可实现消息阻塞告警、集群健康状态检测等功能。原创 2022-08-20 09:14:19 · 1007 阅读 · 1 评论 -
大数据运维实战第二十三课 Namenode、Datanode、Nodemanager 等服务状态监控策略
Centreon 是一款功能强大的分布式 IT 监控系统,通过第三方组件可以实现对网络、操作系统和应用程序的监控:首先,它是开源的,你可以免费使用它;其次,它的底层采用 centreon-engine(类似 Nagios 的引擎)作为监控软件,同时通过 cbd 模块将监控到的数据定时写入数据库中,而 Centreon 实时从数据库读取该数据并通过 Web 界面展现监控数据;原创 2022-08-20 09:10:51 · 1082 阅读 · 0 评论 -
大数据运维实战第二十一课 Filebeat+Kafka+ZooKeeper+Logstash+Elasticsearch+Kibana 构建可视化日志分析系统
本课时主要介绍了生产环境下的 EFLK 应用架构收集 Nginx 日志的应用案例。首先讲解了 Nginx 日志如何进行字段分割,然后介绍了如何通过 Filebeat 收集 Nginx 日志并传送到 Kafka 集群中,接着介绍了如何通过 Logstash 从 Kafka 中消费日志,并将日志进行字段分割,同时传送到 Elasticsearch 中进行存储和查询,最后介绍了如何在 Kibana 中展示日志和查询日志。原创 2022-08-19 11:19:17 · 1661 阅读 · 0 评论 -
大数据运维实战第二十课 日均数据量 30 亿的 Filebeat+Kafka+Mirrormaker 跨机房实时日志传送案例
这是我们之前的一个应用案例,先说一下业务场景,这是一款电商 App 产品,此 App 运行在某公有云上,每天都会产生大量日志,其中涉及访问日志、购买日志、订单日志等多个信息,这些信息比较敏感。因此需要日志产生后马上回传到我们自建的 IDC 数据中心,然后存储在内部的大数据平台上,最后进行各种维度的分析和报表展示。我们的日志数据量每天平均在 30 亿左右,数据是实时产生,要求能实时的传输到 IDC 数据中心,数据延时不能超过 10 秒钟。原创 2022-08-19 11:16:48 · 658 阅读 · 0 评论 -
大数据运维实战第十九课 Kafka 应用场景、集群容量规划、架构设计应用案例
本课时主要讲解了 Kafka 的概念、术语及 Kafka 分布式集群的构建,最后介绍了 Kafka 的基本操作指令,要熟练使用 Kafka,重要的是了解其内部实现机制及运行原理。Kafka 作为一个消息中间件,在集群架构环境中经常使用,特别是在大数据架构环境中。因此,对于本课时介绍的 Kafka 知识点要求熟练掌握。原创 2022-08-19 11:15:06 · 583 阅读 · 0 评论 -
大数据运维实战第十八课 Elasticsearch 应用架构的实现与调优
Elasticsearch 是一个实时的分布式搜索和分析引擎,它可以用于全文搜索、结构化搜索及分析,并采用 Java 语言编写,它的主要特点如下:实时搜索、实时分析;分布式架构、实时文件存储,并将每一个字段都编入索引;文档导向,所有的对象全部是文档;高可用性、易扩展,支持集群(Cluster)、分片和复制(Shards and Replicas);接口友好,支持 JSON。原创 2022-08-19 11:14:00 · 468 阅读 · 0 评论 -
大数据运维实战第十七课 日志收集、分析过滤工具 Logstash应用实战
Logstash 是一款轻量级的、开源的日志收集处理框架,它可以方便地把分散的、多样化的日志搜集起来,并进行自定义过滤分析处理,然后传输到指定的位置,比如某个服务器或者文件。Logstash 的理念很简单,从功能上来讲,它只做 3 件事情:input,数据收集;filter,数据加工,比如过滤、修改等;output,数据输出。由此可知,Logstash 实现的功能主要分为接收数据、解析过滤并转换数据、输出数据。原创 2022-08-19 11:12:30 · 1328 阅读 · 1 评论 -
大数据运维实战第十六课 轻量级日志收集工具 Filebeat 应用案例
Filebeat 是一个开源的文本日志收集器,Elastic 公司 Beats 数据采集产品的一个子产品,采用 Go 语言开发。一般安装在业务服务器上作为代理来监测日志目录或特定的日志文件,并把它们发送到 Logstash、Elasticsearch、Redis 或 Kafka 等。点击官方地址下载各个版本的 Filebeat。本课时主要讲解了 Filebeat 的安装、配置及如何使用。原创 2022-08-19 11:11:08 · 906 阅读 · 0 评论 -
大数据运维实战第十五课 Flink Standalone、Flink on Yarn 集群构建与应用场景
Flink 是一个高性能、高吞吐、低延迟的流处理框架,用于在无边界和有边界流上进行有状态计算。相对于 MapReduce 和 Spark,Flink 真正做到了高吞吐、低延迟、高性能。在国内比较出名的互联网公司如阿里巴巴、美团、滴滴等,都在大规模使用 Flink 作为企业的分布式大数据处理引擎。在 Flink 中,任何类型的数据都可以形成一种事件流,比如 App 浏览日志、电话呼叫记录、订单日志等,所有这些数据都可称为一种流。在 Flink 中定义了无边界流和有边界流。原创 2022-08-19 11:08:32 · 543 阅读 · 0 评论 -
大数据运维实战第十四课 HBae 与 Hadoop 的整合应用实践
HBase 的安装需要依赖 Hadoop 环境(主要是 HDFS 分布式文件系统),这点跟 Spark 类似。因此,需要先安装好 Hadoop 集群,可以将 HDFS 和 HBase 集群部署在一起,也可以分开部署,考虑到性能问题,一般建议将 HDFS 和 HBase 集群服务部署在一起,而 nodemanager 服务不建议和 HBase 的 RegionServer 服务放在一起,因为这两个服务可能出现争抢资源的问题。角色/主机名NameNode是是否否否DataNode否否是是。原创 2022-08-19 11:06:51 · 329 阅读 · 0 评论 -
大数据运维实战第十三课 Spark Standalone 模式的构建以及 Spark 与 Yarn 的整合
用户可以定义 Spark 日志的输出级别和方式,进入到 Spark 目录下的 conf 文件夹,此时有一个 log4j.properties.template 文件,我们执行如下命令,将其复制一份为 log4j.properties,并对 log4j.properties 文件进行修改。如上面的代码所示,找到 log4j.rootCategory=INFO, console,修改为:log4j.rootCategory=WARN, console。原创 2022-08-19 10:49:07 · 397 阅读 · 0 评论 -
大数据运维实战第十二课 Hadoop 分布式资源管理器 Yarn、MR 运行机制剖析
本课时主要讲解了分布式资源管理器 Yarn、MR 运行机制,以及 Yarn 相关的 shell 命令,对于 Yarn 资源运行机制的了解有助于对 Hadoop 集群进行调优和故障排查,这部分内容非常重要,要求我们能熟练掌握。......原创 2022-08-19 08:44:55 · 863 阅读 · 1 评论 -
大数据运维实战第十一课 HDFS 组件运行机制剖析及 HDFS Shell 的使用
本课时主要讲解了 HDFS 的基本架构,以及 Namenode 和 SecondaryNameNode 的工作机制、Namenode 下元数据的管理,以及 HDFS 读、写数据的流程。理解这些原理和架构对于我们排查 Hadoop 集群故障和调优有很大帮助。...原创 2022-08-18 11:05:12 · 514 阅读 · 0 评论 -
大数据运维实战第十课 如何通过 Hivetez 与 Hadoop 的整合快速实现大数据开发(下)
本课时注意讲解了 Hive 与 Hadoop 的整合,以及如何将 Tez、Beeline 整合到 Hive 中。重点是 Hive 与其他组件的整合实现快速开发,作为大数据运维工程师,Hive 的部署与整合是必须要掌握的内容。原创 2022-08-18 10:06:48 · 368 阅读 · 0 评论 -
大数据运维实战第九课 如何通过 Hivetez 与 Hadoop 的整合快速实现大数据开发(上)
这里以 Apache Hadoop 发行版本为例,介绍如何实现 Hadoop 与 Hive 的整合,Hive 版本同样采用 Apache Hive 发行版本。我这里的部署环境如下:从这个规划中可知,我将 Hivemetastore 和 Hiveserver2 服务都运行在 HiveDB 主机上,另外单独一台主机用来运行 Hive 客户端服务,还有一台用来运行 MySQL 服务。...原创 2022-08-18 10:03:45 · 341 阅读 · 0 评论 -
大数据运维实战第八课 通过 Ambari 工具自动化构建 Hadoop 大数据平台和外围应用(下)
本课时主要讲解了通过 Ambari 工具快速、自动化构建 Hadoop 大数据平台,熟练掌握 Ambari 工具的使用可以提高运维效率,但此工具也屏蔽了很多内部实现的细节,因此,新手入门的话,建议通过 Ambari 进行尝鲜,而要深入理解大数据运维,还是建议通过手工构建的方式掌握各个组件的实现和整合细节。...原创 2022-08-18 09:59:23 · 699 阅读 · 0 评论 -
大数据运维实战第七课 通过 Ambari工具自动化构建 Hadoop 大数据平台和外围应用(上)
本课时主要讲“通过 Ambari 工具自动化构建大数据运维平台”的内容。原创 2022-08-18 09:22:45 · 1205 阅读 · 0 评论