大数据平台环境搭建
文章平均质量分 83
Grey_hat_cmd
这个作者很懒,什么都没留下…
展开
-
大数据平台环境搭建---- Spark组件配置
Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集。参考文献:https://www.cnblogs.com/xupccc/p/9800380.html。复制Spark配置模板:cp spark-env.sh.template spark-env.sh。进入Spark配置目录:cd /usr/local/src/spark/conf/# 启动 spark 脚本,由于与 Hadoop 脚本同名,需要进入到目录执行。原创 2024-01-20 14:59:44 · 968 阅读 · 0 评论 -
大数据平台环境搭建---- MySql数据库组件配置报错
这是由于我们连接数据库使用的主机名参数为“localhost”,或者未使用主机名参数、服务器默认使用“localhost”做为主机名。使用主机名参数为“localhost”连接mysql服务端时,mysql客户端会认为是连接本机,所以会尝试以socket文件方式进行连接(socket文件连接方式,比“ip:端口”方式效率更高),这时根据配置文件“/etc/mysql.cnf”的路径,未找到相应的socket文件,就会引发此错误。启动MySql服务:systemctl start mysqld。原创 2024-01-20 12:42:14 · 948 阅读 · 0 评论 -
大数据平台环境搭建---- Kafka组件配置
链接:https://pan.xunlei.com/s/VNoS5J4h7-dL_0o5tkBruBsiA1?3、支持Kafka Server间的消息分区,及分布式消费,同时保证每个partition内的消息顺序传输。附加:Zookeeper集群必须部署完成且启动,如果还没有搭建请先前往>>Zookeeper组件配置。1、以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能。进入Kafka配置目录:cd /usr/local/src/kafka/config/原创 2024-01-18 23:09:08 · 386 阅读 · 1 评论 -
大数据平台环境搭建---- Hive&MySql数据库组件配置
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。警告:mysql-community-common-5.7.25-1.el7.x86_64.rpm: 头V3 DSA/SHA1 Signature, 密钥 ID 5072e1f5: NOKEY。部署Hive时需要更改Hadoop中的驱动文件,最好先停止Hadoop集群,避免出现异常。进入Hive配置目录:cd /usr/local/src/hive/conf/原创 2024-01-18 18:22:07 · 979 阅读 · 1 评论 -
大数据平台环境搭建---- Hbase组件配置
进入Hadoop安装目录的conf目录,将配置文件core-site.xml和hdfs-site.xml复制到HBase安装目录下的conf目录,用于HBase启动时读取Hadoop的核心配置信息和HDFS配置信息。在HBase安装目录下的conf目录,执行“vi backup-masters”命令编辑备用HMaster配置文件backup-masters,配置备用HMaster所在的服务器主机名.在HBase安装目录下的conf目录,执行“vi hbase-site.xml”命令编辑HBase配置文件。原创 2024-01-18 14:16:33 · 962 阅读 · 0 评论 -
大数据平台环境搭建---- Flume组件配置
由于数据源是可定制的,Flume可以用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息和几乎所有可能的数据源。Flume是一个分布式的、可靠的、可用的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储。复制Flume配置模板:cp flume-env.sh.template flume-env.sh。进入Flume配置目录:cd /usr/local/src/flume/conf/编辑Flume配置文件:vi flume-env.sh。原创 2024-01-18 11:59:17 · 621 阅读 · 0 评论 -
大数据平台环境搭建---- Flink组件配置
由于流处理和批处理所提供的SLA(服务等级协议)是完全不相同,流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理,所以在实现的时候通常是分别给出两套实现方法,或者通过一来实现其中每一种处理方案。Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架,它基于同一个Flink流式执个独立的开源框架行模型(streaming execution model),能够支持。进入Flink配置目录:cd /usr/local/src/flink/conf/原创 2024-01-17 22:58:37 · 884 阅读 · 0 评论 -
大数据平台环境搭建---- Hadoop组件配置
配置三台主机作为Hadoop数据仓库,一台主机作为管理机(master),两台主机作为服务机(slave1,slave2)进入Hadoop配置目录:cd /usr/local/src/hadoop/etc/hadoop/线程:master——六个 slave1——三个 slave2——三个。免密登录就会出错,三台虚拟机互通的前提就是做好映射,否者是没有办法把文件拷贝给其两台的 ——格式:IP地址:50070 ——这里有个小细节,冒号一定要是英文的状态下去输入。原创 2023-07-19 09:48:52 · 192 阅读 · 0 评论