![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
头顶榴莲树
持续分享大数据技术经验,欢迎交流~
展开
-
npm install 报错解决
npm安装cnpm时报各种关于package.json的解析错误,经过多次使用'npm cache clean --force'命令清除缓存再安装后最终报如下错误:npm ERR! code EINTEGRITYnpm ERR! sha1-wgdX/nLucSeOoP89h+XCyjDZ7fg= integrity checksum failed when using sha1: wanted ...原创 2018-03-11 09:21:38 · 107448 阅读 · 7 评论 -
离线安装elasticdump
离线安装elasticdump原创 2022-12-02 14:51:34 · 1352 阅读 · 0 评论 -
NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Lja
Phonix和Hbase版本用的比较高,Phonix是5.0.0-HBase-2.0版,我用JAVA JDBC查询Phonix时报错:Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Ljavax/security/auth/Subject;)Z很显然时hadoop auth包版本的问题,于是将hadoop-aut原创 2022-01-14 13:01:51 · 1738 阅读 · 0 评论 -
HDP环境的kafka如何开启JMX
打开HDP上的kafka配置界面,找到kafka-env template配置项,编辑添加export JMX_PORT=9393,该变量指定了JMX服务端口号,修改完成后重启kafka服务即可原创 2022-01-07 16:35:38 · 1353 阅读 · 0 评论 -
HDP-3.1环境kafka主题无法删除问题解决方案
问题描述:使用kafka-topics命令执行--delete操作删除topic无效,集群环境的kafka配置项delete.topic.enable=true,执行完删除操作后topic仍然存在,但是该topic分区的leader却会改变,并且zk的admin/delete_topics节点下并没有创建与该topic同名的子节点,通常执行删除操作后,kafka会在zk的admin/delete_topics节点下创建一个与删除topic同名的子节点以标记该topic已经删除。解决:在zk的admi原创 2022-01-07 14:55:10 · 1212 阅读 · 0 评论 -
Flink on Yarn报错:Container released on a *lost* node
flink任务提交到yarn执行几天后报错:2022-01-05 15:09:26,288 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Completed checkpoint 89574 for job cc0abb4a3cd870b2a9e1abc7235ceb91 (3528 bytes in 610 ms).2022-01-05 15:09:29,544 WARN akka.remote.R原创 2022-01-06 14:48:22 · 2545 阅读 · 0 评论 -
Flink作业使用yarn.provided.lib.dirs参数指定依赖
yarn.provided.lib.dirs参数如官网所描述,它能够在提交作业时从你指定的HDFS目录中获取依赖,从而不必在每次本地提交作业时都将依赖也一同提交,我们使用下试试,首先将工程依赖包上传至HDFS目录/user/dev/flink-1.14.0-dependency,在提交时加上yarn.provided.lib.dirs参数并指定依赖包所在HDFS目录:/opt/flink-1.14.0/bin/flink run-application \-t yarn-application \原创 2021-12-17 11:31:22 · 5427 阅读 · 0 评论 -
HDP-3.1.5集成DolphinScheduler-1.3.9
一、环境准备CentOS-7.8、nodejs-16、npm-(nodejs自带)、java-1.8、maven-3.8二、编译从GitHub获取dolphinscheduler-1.3.9源码git clone https://github.com/apache/dolphinscheduler.git -b 1.3.9-release进入源码目录进行编译mvn -U clean install -Prpmbuild -Dmaven.test.skip=true -X编译完原创 2021-11-19 10:11:08 · 3092 阅读 · 3 评论 -
CDH重新初始化Hive元数据库
初始化元数据需要使用cdh hive中的schematool 脚本工具进行初始化,初始化脚本位置为cloudera/parcels/CDH/lib/hive/bin/接下来执行初始化命令./schematool -initSchema -dbType mysql --verbose执行报错:[root@prod-bigdata-pc7 bin]# ./schematool -dbType mysql -initSchema -passWord root -userName root --原创 2021-10-21 09:53:30 · 2311 阅读 · 0 评论 -
CDH开启kerberos报错:Ticket expired
我是参考cloudera官方文档上的开启kerberos向导做的,地址:https://docs.cloudera.com/cdp-private-cloud-base/7.1.5/security-kerberos-authentication/topics/cm-security-kerberos-enabling-step4-kerberos-wizard.html开启过程中,最后的启动集群步骤开始报错,报错的服务有kafka、hbase、JobHistory等,相关日志如下:kafka、hb原创 2021-08-19 17:13:28 · 897 阅读 · 0 评论 -
Linkin-1.0.0提交spark任务到HDP环境报错:failed to request external resource provider
linkis-1.0.0部署到hdp集群,执行spark任务时候报错如下:找到日志linkis-cg-linkismanager.log可以看到一些错误日志,如图所示:于是开启linkis-cg-linkismanager服务的远程debug,跟踪到源码,当用linkis-cli提交spark任务时候,debug会执行到com.webank.wedatasphere.linkis.resourcemanager.external.yarn类里面的requestResourceInfo()方法,.原创 2021-08-19 11:22:35 · 534 阅读 · 0 评论 -
微众Linkis1.0整合hadoop3启动报错NoSuchMethodError: org.eclipse.jetty.server...getSessionManager()解决
在这里记录下微众Linkis1.0.0在与Hadoop3.1.1整合时产生的依赖问题,编译没问题,但是在安装完后启动微服务linkis-ps-publicservic时报错,我们看下具体错误:2021-07-23 13:20:39.532 [INFO ] [main ] o.s.c.s.PostProcessorRegistrationDelegate$BeanPostProcessorChecker (335) [postProc原创 2021-07-23 14:21:32 · 1165 阅读 · 1 评论 -
hiveserver2日志配置
刚安装的hive需要到将conf/hive-log4j2.properties.template文件更名为hive-log4j2.properties,并将其内容中的property.hive.log.dir配置项设置为正确的日志路径,这样开启hiveserver2后就会在该路径下看到启动日志原创 2021-06-30 11:10:04 · 1989 阅读 · 0 评论 -
记录一次HDFS JN迁移异常处理
集群环境为CDH6.3.2,现需要将hdfs三个jn中的其中一个迁移到其他节点,当正在CDH管理端操作jn迁移时,误删了目标jn节点上迁移任务刚自动创建的jn数据目录,之后产生了一系列问题,先看下误删jn数据目录后的jn报错日志:2021-06-19 11:43:09,759 INFO org.apache.hadoop.hdfs.qjournal.server.JournalNode: STARTUP_MSG:/*******************************************原创 2021-06-25 09:54:56 · 1374 阅读 · 0 评论 -
滴滴Logi-KafkaManager对接夜莺实现告警配置
滴滴Logi-KafkaManager对接夜莺实现告警配置前言我当前用的kafkaManager是2.0.0版本,对接的夜莺是3.0版。kafkaManager对接夜莺告警功能原理很简单,kafkaManager会与夜莺的monapi、transfer、rdb等服务模块通信,实现监控数据上报、获取团队信息等,这样在kafkaManager的监控告警页面就可以配置告警规则,选择告警通知对象等来实现告警配置,下面是具体配置步骤:1、修改kafkaManager的application.yml文件文件位置原创 2021-04-16 09:55:55 · 1195 阅读 · 1 评论 -
滴滴夜莺分布式部署方案
我们的规划是在三台服务器上部署夜莺主要的服务组件以及redis和nginx,并在所有要监控的服务器上部署夜莺的agent服务,agent服务将用来收集要监控的服务器数据,并将数据发送到夜莺的主要服务端用作监控告警,下面表格是我们在三个节点上的部署的夜莺主要服务组件和相关依赖服务:集群节点规划 节点 monapi transfer job ams index judge rdb tsdb redis nginx mysql node0原创 2021-02-04 10:50:54 · 1266 阅读 · 1 评论 -
Filebeat+Logstash+Elasticsearch收集spark日志分析
数据流程图如下:一、配置Filebeat编辑filebeat.yml文件,内容如下:# ====================== 输入 ===============================filebeat.inputs:- type: log enabled: true paths: - /data/log/hadoop-yarn/hadoop-cmf-yarn-NODEMANAGER*.out - /data/yarn/container-logs...原创 2021-02-02 18:00:20 · 572 阅读 · 0 评论 -
kafka+kerberos认证后生产消费问题
前提:操作机已经通过kinit -kt方式认证一、生产者1、创建jaas.conf,向其添加内容:KafkaClient{com.sun.security.auth.module.Krb5LoginModule requireduseTicketCache=true;};2、将jaas.conf添加到环境变量export KAFKA_OPTS="-Djava.security.auth.login.config=/home/klapp/jaas.conf"3、创建生产者配置文件produce原创 2020-12-18 10:27:19 · 1634 阅读 · 1 评论 -
HPLSQL连接Hive(Kerberos认证)指南
1、下载hplsql安装包:地址:http://www.hplsql.org/download ,当前测试环境CDH为6.3版本,选择下载0.3.17版的就可以2、解压到某路径下,参考官网就行3、配置hplsql-site.xml主要改下hive2的jdbc连接参数:<property> <name>hplsql.conn.hive2conn</name> <value>org.apache.hive.jdbc.HiveDriver;jdbc:hiv原创 2020-12-18 10:24:48 · 558 阅读 · 1 评论 -
Hive+Zookeeper+Kerberos配置HA方法
一般在cdh上配置,如图:具体的几个配置项如下:hive.server2.support.dynamic.service.discovery=truehive.server2.zookeeper.namespace=hiveserver2_zkhive.zookeeper.quorum=test-hadoop-pc06:2181,test-hadoop-pc07:2181,test-hadoop-pc08:2181hive.zookeeper.client.port=2181hive.serv.原创 2020-12-18 10:20:31 · 1901 阅读 · 0 评论 -
滴滴kafka-manager监控CDH版kafka(带kerberos认证)
对于CDH环境的kafka,并且带有kerberos认证的,部署kafka-manager时需要注意两点:1、接入集群要用的安全协议配置这里直接给个模板:{ "security.protocol":"SASL_PLAINTEXT", "sasl.mechanism":"GSSAPI", "sasl.kerberos.service.name":"kafka", "sasl.jaas.config":"com.sun.security.auth.module.Krb5LoginMo...原创 2020-12-18 10:11:58 · 939 阅读 · 4 评论 -
refreshUserToGroupsMappings: FileSystem file:/// is not an HDFS file
我们当前大数据集群环境为CDH6.3,集群中有台主机没有分配任何服务,在该机器上执行命令hdfs dfsadmin报错:[root@prod-bigdata-pc16 ~]# hdfs dfsadmin -refreshUserToGroupsMappings refreshUserToGroupsMappings: FileSystem file:/// is not an HDFS file system Usage: hdfs dfsadmin [-refreshUserToGroupsMapping原创 2020-11-24 09:42:02 · 1500 阅读 · 1 评论 -
Spark通过jdbc方式读写ClickHouse
现在是2020年9月,由于目前还没有Spark整合ClickHouse的连接器,所以通过spark读写ClickHouse的方式只能是jdbc了,另外github上有个连接器,需要自己打包发布,感兴趣的可以研究下,地址https://github.com/wangxiaojing/spark-clickhouse以下是spark读写clickHouse的代码:/* 读取 */ def select(spark:SparkSession): Unit ={ spark.read原创 2020-09-11 19:03:31 · 4919 阅读 · 9 评论 -
Ext-2.2的下载链接
http://archive.cloudera.com/gplextras/misc/ext-2.2.zip原创 2020-07-26 17:29:29 · 240 阅读 · 0 评论 -
Flink接收Kafka中的Avro序列化消息
在Flink官网中可以看到flink接收kafka数据的简单示例程序Properties properties = new Properties();properties.setProperty("bootstrap.servers", "localhost:9092");// only required for Kafka 0.8properties.setProperty("zoo...原创 2020-01-09 11:53:54 · 5085 阅读 · 9 评论 -
Flink写入Redis的两种方式
1、使用flink提供的RedisSink(1)添加maven依赖<dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.11</artifactId> <version>1.1-SNA...原创 2020-01-09 11:06:06 · 9059 阅读 · 6 评论