大数据
Alex_Sheng_Sea
这个作者很懒,什么都没留下…
展开
-
基于HDP(ambari)的Flink1.9.0编译
我在网上一直没有找到基于HDP-Flink1.9编译的文档,这几天一直在研究,踩了不少坑,现在整理一下,希望可以帮到大家一、准备1.安装Apache Maven 3.2.52.下载flink-shaded-7.03.下载flink-release-1.9.0二、准备编译1.修改flink-shaded项目中的pom.xml,添加如下把上述内容加入到<p...原创 2020-01-07 19:29:48 · 1199 阅读 · 0 评论 -
ES名词解释
集群:具有相同clusterName的节点。节点:一个ES实例,并不定是一个节点,因为一个节点上可以启动多个ES实例。索引:相当于数据库database的概念,一个集群可以包含多个索引。分片:索引可以切分成多个分片,分布在不同的节点上,节点包含必须包含主分片,同时也可以存在一个或者多个副本。类型:相当于数据库中table的概念,同一个索引下,可以存在多个typemapping:相当于数据...原创 2019-12-20 16:32:47 · 1260 阅读 · 0 评论 -
【kafka】kafka0.11版本follower水位高于leader解决办法
错误日志:ERROR[ReplicaFetcherreplicaId=0,leaderId=2,fetcherId=0]ExitingbecauselogtruncationisnotallowedforpartitionIRT_Dev_HeartBeat-18,currentleader'slatestoffset45479islesstha...原创 2019-11-12 22:22:39 · 1929 阅读 · 1 评论 -
NAMENODE问题分析
-----journalnode异常日志2017-09-04 02:39:21,667 INFO org.apache.hadoop.hdfs.server.namenode.FileJournalManager: Finalizing edits file /data/hadoop/journalnode/nn/XXXXXXX/current/edits_inprogress_00000000...转载 2019-10-24 17:23:06 · 767 阅读 · 0 评论 -
flinkOnYarn 启动报错NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnException
[root@hadoop-01 flink-1.9.0]# bin/yarn-session.sh Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFoundError: org/apache/...原创 2019-10-17 15:21:27 · 5975 阅读 · 3 评论 -
Presto报错
1.报错内容1、在启动presto的时候会出现这个不认识的信息,这些今天遇到的都是每行配置后续多了一个空格,这个还是要一个一个的敲比较靠谱,不要拷贝。java.lang.IllegalArgumentException: No factory for connector hive-hadoop2 at com.google.common.base.Preconditio...原创 2019-03-08 14:52:51 · 784 阅读 · 0 评论 -
Presto 0.217 部署(单节点与分布式)
一、环境:操作系统:LinuxCentOS Linux release 7.3.1611Presto版本:0.217Hadoop版本:3.1.1HIve 版本:3.1.0二、安装Presto(单机版)1. 解压到指定目录tar -xzvfpresto-server-0.217.tar.gz -C /data/app2.配置Presto2.1 ...原创 2019-03-08 16:19:41 · 1044 阅读 · 0 评论 -
Linux下Jupyter安装和配置
#一、先决条件-------------------1.Jupyter运行需要基于Python环境,此处使用Anaconda管理Python环境2.Jupyter为了避免遭受攻击,需要使用jupyter用户启动 useradd jupyter passwd jupyter 1234563.安装anaconda 3.1 su jupyter 3.2 wg...原创 2019-03-06 16:09:54 · 6967 阅读 · 0 评论 -
Jupyter安装R
Jupyter节点——————————————————地址:10.69.69.231堡垒机组:3.0生产环境用户:jupyterR语言安装****************************环境:Linux version 3.10.0-693.el7.x86_64 (builder@kbuilder.dev.centos.org)(gcc version 4.8.5 2...原创 2019-03-06 16:12:59 · 679 阅读 · 0 评论 -
Ambari2.7.1+HDP3.0.1.0的ATS embedded HBase is NOT running on master01报错
1.环境:CentOS 7.3+Ambari2.7.1+HDP3.0.1.02.报错:在Ambari的Alert中收到ATS embedded HBase is NOT running on master01的告警3.分析:我看了下报错,是yarn中的timeline无法启动,看了一下resourceMananger的JVM内存是1G,应该是太小导致的4.解决:将ResourceMan...原创 2019-03-04 11:05:23 · 3512 阅读 · 0 评论 -
HDFS文件目录结构详解
HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的dfs.namenode.name.dir和dfs.datanode.data.dir。一、...转载 2019-07-12 18:37:33 · 1497 阅读 · 0 评论 -
DFSClient频繁发生GC,导致写入hdfs超时的问题分析
搜索推荐有一个job,1000多个map,200个reduce,运行到最后只剩一个reduce(10.39.6.130上)的时候,出现以下异常,导致job失败:2014-12-04 15:49:04,297 INFO [main] org.apache.hadoop.mapred.Merger: Down to the last merge-pass, with 12 segments ...转载 2019-07-10 10:58:28 · 3205 阅读 · 0 评论 -
hadoop fsck / 详解
我们知道fsck是用来检测hdfs上文件、block信息的,但是fsck输出的结果我们是否能看明白呢?Status: HEALTHYTotal size: 2847297793799 BTotal dirs: 26332Total files: 883767Total symlinks: 0Total blocks (validate...原创 2019-07-17 10:54:40 · 1087 阅读 · 0 评论 -
Yarn 内存分配管理机制及相关参数配置(yarn性能调优)
一、相关配置情况关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念,现在可以先把它理解为运行map/reduce task的容器,后面有详细介绍。1.1 RM的内存资源配置, 配置的是资源调度相关RM1:yarn.sche...转载 2019-08-31 12:16:39 · 1460 阅读 · 0 评论 -
ERROR:"Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient"
1.HIve启动报错:ERROR:"Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient" 2.解决办法: 进入所安装的Hive的conf目录,找到hive-site.xml,(若没修改,则是hive-default.xml.template)。<prope...原创 2019-02-26 19:51:29 · 418 阅读 · 0 评论 -
Kafka消费与位移
1. 前言消息堆积是消费滞后(Lag)的一种表现形式,消息中间件服务端中所留存的消息与消费掉的消息之间的差值即为消息堆积量,也称之为消费滞后(Lag)量。对于Kafka而言,消息被发送至Topic中,而Topic又分成了多个分区(Partition),每一个Partition都有一个预写式的日志文件,虽然Partition可以继续细分为若干个段文件(Segment),但是对于上层应用来说可以将...转载 2019-02-20 11:02:36 · 1512 阅读 · 0 评论 -
Ambari2.6.2.2安装组件的配置文件位置
昨天在WEBUI中修改了Ambari集群中的一些配置想在linux上查看是否同步,找了半天没找到配置文件在什么位置,今天找到了,发出来希望可以帮助到大家,因为感觉里面的配置文件挺多挺乱的 1.Ambari安装Hive组件,配置文件在/etc/hive/2.6.5.0-292/02.Ambari安装Hadoop组件在/etc/hadoop/2.6.5.0-292/03.安装的组件...原创 2018-11-13 14:33:09 · 3090 阅读 · 0 评论 -
ambari安装问题 Confirm Hosts SSLError: Failed to connect. Please check openssl library versions
Running setup agent script...========================== Command start time 2018-07-20 16:39:31("INFO 2018-07-20 16:40:22,452 HeartbeatHandlers.py:116 - Stop event receivedINFO 2018-07-20 ...原创 2018-11-13 22:17:53 · 826 阅读 · 0 评论 -
HIve的十项企业级调优
1.Fetch抓取 set hive.fetch.task.conversion=more(默认)1Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。该属性设置为 more 以后,在全局查找、字段查找、limit 查找等都不走 MapReduce。 设置为none后所有类型的查找语句都要走MapReduce;2.本地模式set hive.exe...转载 2018-11-20 10:16:31 · 220 阅读 · 0 评论 -
Storm 报错 expected 'document start ' but found BlockMappingStart in 'reader', line 85
一、报错内容Caused by: expected '<document start>', but found BlockMappingStart in 'reader', line 85, column 1: nimbus.seeds: [ ^ at org.apache.storm.shade.org.yaml.snakeyaml.parse...原创 2018-11-29 18:03:26 · 1939 阅读 · 0 评论 -
kafka动态修改__consumer_offsets的副本数量(无需重启服务)
在新版本Kafka中,__consumer_offsets这个topic是存放消费者偏移量的,但是该主题默认配置副本数量只有1,容易造成单点故障,我们可以动态修改(无需重启服务)副本因子,提高kafka的可靠性 修改流程----------------------------------------------------------------------------...原创 2018-11-27 10:12:49 · 5302 阅读 · 0 评论 -
Storm 1.1.1 部署
#安装JDKyum install -y java-1.8.0-openjdk.x86_64 java-1.8.0-openjdk-devel.x86_64#配置环境变量echo 'export STORM_HOME=/data/app/apache-storm-1.1.1' >>/etc/profileecho 'export PATH=$STORM_HOME/bin:$...原创 2018-11-30 14:01:46 · 173 阅读 · 0 评论 -
Kafka 2.11-0.2 部署文档
磁盘初始化:pvcreate /dev/vdbvgcreate VG0 /dev/vdb#创建一个占全部卷组大小的lvlvcreate -l +100%FREE -n LV0 VG0mkfs.ext4 /dev/VG0/LV0echo "/dev/VG0/LV0 /data ext4 defaults 0 0" >>/etc/fstab#...原创 2018-11-30 14:05:35 · 417 阅读 · 0 评论 -
hue快速入门--Hadoop可视化分析利器
1. 需求引入在大数据生态圈中有很多的技术,每一个技术的使用和管理都有自己的规范,例如hdfs操作有相关的插件,mr任务的监控有相关的页面,hbase的操作也有相对应的页面,那么这些零零散散的管理页面能否统一到一个软件中进行管理呢?2. hue的简介2.1. hue概述Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公...转载 2018-11-30 14:10:29 · 858 阅读 · 0 评论 -
hadoop集群datanode、nodemanager节点下线
最近要下线几台Datanode,所以整理一下方法一、修改hdfs-site.xml文件1.在namenode节点hdfs.site中增加配置,在standby中也同时修改<property> <name>dfs.hosts.exclude</name> <value>/data/app/hadoop-2.6.5/etc/hado...原创 2018-12-05 16:15:47 · 2412 阅读 · 2 评论 -
大数据常用端口
1.1 HDFS端口 参数 描述 默认 配置文件 例子值 fs.default.name namenode namenode高可用 RPC交互端口 8020 core-site.xml hdf...原创 2018-12-12 10:29:27 · 1172 阅读 · 0 评论 -
Error: Could not find or load main class org.apache.spark.deploy.yarn.ApplicationMaster
今天搭建了一个sparkOnYarn的集群,我想测试一下集群是否正常,使用spark自带蒙特卡罗求圆周率的算法包,但是执行报错执行命令:bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn --deploy-mode cluster \--executor-memory 1G \--...原创 2019-01-29 14:13:17 · 12316 阅读 · 0 评论 -
kafka报错org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s) for test
1.控制台报错:2019-02-19 10:36:06.868 ERROR 2272 --- [kafka-producer-network-thread | producer-1] o.s.k.support.LoggingProducerListener : Exception thrown when sending a message with key='8677260313644...原创 2019-02-19 17:39:18 · 8778 阅读 · 1 评论 -
Spark之RDD算子-转换算子
RDD-Transformation转换(Transformation)算子就是对RDD进行操作的接口函数,其作用是将一个或多个RDD变换成新的RDD。使用Spark进行数据计算,在利用创建算子生成RDD后,数据处理的算法设计和程序编写的最关键部分,就是利用变换算子对原始数据产生的RDD进行一步一步的变换,最终得到期望的计算结果。对于变换算子可理解为分两类:1,对Value型...原创 2018-09-02 15:14:48 · 559 阅读 · 0 评论