大数据
文章平均质量分 56
票7毒9守3验11
这个作者很懒,什么都没留下…
展开
-
master数据导入练习-flume-kafka
数据数据1)任务概要2)数据导入数据库命令【查看数据文件 README 得知】3)补充:将数据库表格转到本地语句(.csv格式)1、使用sqoop导入数据到hdfs(.csv格式)2、flume导入文件至kafkaagent文件格式(范例)1).创建agent文件(我是使用的nodeone)departments.conf、dept_emp.conf、dept_manager.conf、employees.conf、salaries.conf、titles.conf2)创建topic原创 2021-02-05 09:38:26 · 219 阅读 · 0 评论 -
Spark集群提交方式及zeppelin环境配置
Spark zeppelin环境配置:export JAVA_HOME=/opt/install/jdkexport SPARK_HOME=/opt/install/sparkexport HADOOP_CONF_DIR=/opt/install/hadoop/etc/hodoopzeppelin:val users=spark.read.options(Map(“inferSchema”->“true”,“delimiter”->",",“header”->“true”)).c原创 2021-01-20 18:51:24 · 438 阅读 · 0 评论 -
MapReduce数据倾斜
1.什么是数据倾斜?简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。数据倾斜分为两种:数据频率倾斜:某一区域的数据量远远大于其他区域。数据大小倾斜:部分记录的大小远远大于平均值。2.数据倾斜原因key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜3.解决办法方法 1:抽样和范围分区可以通过对原始数据进行抽样得到的结果集来预设分区边界值。方法 2:自定义分区partition基于输出键的背景知识进行自定义分区。例原创 2021-01-01 10:31:17 · 213 阅读 · 0 评论 -
Hadoop高可用集群搭建
一、HDFS-HA集群配置 1.1 配置HDFS-HA集群1.官方地址:http://hadoop.apache.org/2.HDFS高可用集群规划,请先搭建好一个Hadoop完全分布式集群(可以未进行namenode格式化)和ZooKeeper完全分布式环境已经安装完成。Hadoop102 Hadoop103 Hadoop104NameNode NameNode ResourceManager ResourceManager ZKFC ZKFC DataNode DataNode Data原创 2020-12-28 11:34:48 · 187 阅读 · 0 评论 -
Phoenix安装及与HBase的集成
一、Phoenix安装1.1 前置环境首先保证Zookeeper、Hadoop集群的正常部署,并启动。1.2 Phoenix安装部署使用的版本为phoenix-4.14.0-cdh5.14.2。下载地址http://archive.cloudera.com/cdh5/cdh/5/1.解压Phoenix到指定目录:[root@hadoop101 software]$ tar -zxf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt/instal原创 2020-12-24 14:44:56 · 371 阅读 · 0 评论 -
hdfs高可用前期准备工作
前期准备工作把之前Hadoop的文件 也就是原来的配置信息给删掉cd /varrm -rf cdh1.缺一个自动切换的组件。yum install -y psmisc另一种解决方案(没试过)2.规划nodeonenodetwonodethreenodefourNN11ZK111DN111JN111ZXFC113.配置信息修改core-site.xml信息保留日志存储其他删掉cd /opt/install/hadoop/etc/hadoop原创 2020-12-23 10:02:58 · 96 阅读 · 0 评论 -
怎么使hadoop集群更容易重置
使hadoop集群更容易重置:1.数据, NN DN SNN /var/cdh/2.日志。 $HADOOP_HOME/logs修改yarn的配置:yarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.hostnamenodetwomapred-site.xmlmapreduce.framework.nameyarn修改:hadoop-env.sh增加 HA.原创 2020-12-23 09:26:44 · 236 阅读 · 1 评论 -
ZooKeeper分布式环境搭建
1.1 分布式安装部署0.前置条件jdk已经安装完成。三台机器防火墙已经关闭。1.集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2.解压安装(1)上传ZooKeeper安装包到hadoop102主机/opt/software目录下。这里还是使用CDH版本,具体包为zookeeper-3.4.5-cdh5.14.2.tar.gz。(2)解压zookeeper安装包到/opt/install/目录下[hadoop@hadoop102 so原创 2020-12-23 09:23:23 · 247 阅读 · 0 评论