自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 资源 (11)
  • 收藏
  • 关注

原创 高效改进!防止DataX从HDFS导入关系型数据库丢数据

主要改动是将之前只处理单个分片的逻辑重构为一个循环,处理所有分片。这使代码更具扩展性和效率,也适应不同的输入数据量。移除了无用且重复的注释和代码行,以保持代码清晰。

2024-10-23 17:42:42 2988

原创 实战:大数据冷热分析

冷热分析(Hot and Cold Data Analysis)的目的主要在于优化存储系统的性能和成本。通过识别并区分访问频率和存储需求不同的数据,可以采取适当的存储策略,进而提高系统的效率和用户体验。终极目的就是使用较少磁盘,从而达到降本的目的。

2024-10-23 10:08:07 2804

原创 ambari HDP适配统信1050e下

ambari HDP适配统信1050e下

2024-10-23 09:51:53 387

原创 ambari HDP适配统信1050e上

解决ambari HDP适配统信1050e

2024-10-21 10:04:07 202

原创 SM3加密udf

create function hiveSM3Encrypt as 'com.xxx.udf.SM3Encrypt' using jar 'hdfs:/{上传目录}/hiveSM3UDF-1.0-SNAPSHOT.jar';#1.上传jar包hiveSM3UDF-1.0-SNAPSHOT.jar到hdfs中/{上传目录}/// 将返回的加密字节数组转换成16进制字符串。--添加Hadoop的依赖-->--sm3,sm4加密算法-->// 调用SM3加密。--添加hive依赖-->-- 配置日志 -->

2023-10-27 11:00:28 773

原创 ambari启用kerberos

我这里测试集群,自定义安装了flink,hue,ES,presto等,应在未安装之前启用kerberos,因为amabri是不支持这个自定义kerberos的,需要自己在自定义是配置,或者后期添加配置,我这里是直接先停停掉,在安装的,但是测试集群很多人再用,停止前要和大家商量好。公司的测试集群是amabri安装的,HDP3.1.4版本,前面已经安装好了kerberos主从,现在要在集群上开启kerberos认证。集成kerberos后,kafka访问方式:(必须使用主机名,如果是ip会报错)

2022-10-03 09:29:39 2629 6

原创 kinit: KDC can‘t fulfill requested option while renewing credentials

1,检查配置文件/var/kerberos/krb5kdc/kdc.conf,在[realms]下需要有max_renewable_life = 7d。为啥推荐使用klist,执行命令需要和和klist中的Default principal: root@AM.COM对应。3.klist 查看cache文件 或者在/etc/krb5.conf中查看相应的配置文件,推荐使用klist。在测试集群上装上了kerberos,今天同事需要使用kinit -R 命令,在执行时报错。8.重新执行kinit -R成功。

2022-10-02 08:10:25 3203

原创 hbase加kerberos 后报错hbase master 起不来

1.需要手动重新创建keytab文件2.注意keytab文件权限问题。

2022-10-01 15:55:07 1178

原创 hive集群加了个参数后,union all的任务都执行不了影响业务

今年1月内蒙的数据中台和大数据平台上线,运行至今很稳定,昨天半夜3点半被叫起来,说大部分任务卡住了,运行不了,追查问题,发现union all的任务都执行不了,问了现场早上改了什么吗?发现局方要求改了一个参数导致的,任务执行不了挺严重的,早上任务出不来,主任要背责任的。Hive中没有超级管理员,任何用户都可以进行Grant/Revoke操作,为了完善“超级管理员”,必须添加hive.semantic.analyzer.hook配置,并实现自己的权限控制类。3.暂时将参数改回去,回滚配置,重启服务。

2022-09-30 16:03:26 787 2

原创 impala加kerberos后权限问题

公司测试集群需要配置impala+kerberos,但是测试集群很乱,很多人用,用户还有权限比较混乱,而且是ambari HDP的集群。加了kerberos后查询没有问题,建表的时候不行。impala在124也就是master上,程序在126机slave2上,hive在125上。原因:hadoop配置文件 core-site.xml错误, 用于连接的IP地址或主机名没有增加到代理配置中。1.修改/root/impala-http.keytab的权限。2.检查/etc/default/impala配置。

2022-09-29 12:20:05 1132

原创 impala添加kerberos认证

7.将 Kerberos 选项添加到 Impala 默认文件 /etc/default/impala。1.创建kerberos Impala 服务主体,指定运行 Impala 守护程序的操作系统用户的名称、运行 impalad的每个节点的完全限定域名以及领域名称。有关更改 /etc/default/impala中指定的 Impala 默认值的更多信息,请参阅 修改 Impala 启动选项。解决:创建kerberos Impala 服务主体和生成的keytab文件必须要有节点的完全限定域名以及领域名称例如。

2022-09-23 18:08:24 1058

原创 配置YARN队列权限由Ranger管理

在Ambari中打开YARN配置界面(YARN->Configs->Advanced->Custom ranger-yarn-security),配置属性ranger.add-yarn-authorization为false,如下图所示。配置策略名,需要设定访问控制的队列,在用户和用户组权限中选择用户,或者组,并赋予相应的权限,如下图所示。ranger对hdfs,hive,hbase管控都没有问题,对队列的管控要不全能访问,要不全不能访问,一定是ranger哪个地方配置不对。

2022-09-22 14:39:43 1407

原创 amabri shell install 使用shell的方式一键式部署ambri HDP

文章目录amabri shell install 使用shell的方式一键式部署ambri HDP背景&目的准备服务器准备shell 脚本参数设计主脚本安装jdk修改主机参数配置hosts文件ssh免密执行注意版本源码版权后续期望&缺陷amabri shell install 使用shell的方式一键式部署ambri HDP背景&目的从2016年第一个ambari相关项目开始,需要频繁的部署,不同的ambari版本,使用shell实现一键式部署ambari,后期不断完善,实际上

2022-06-01 08:00:00 373 1

原创 kerberos 主从安装

文章目录主机列表软件清单主机规划安装部署服务安装修改配置创建数据库拷贝密钥文件创建同步账号拷贝文件keytab文件声明同步账户启动Kprop服务同步数据库添加自动同步任务启动从节点启动Kadmin服务测试添加测试账号停止主节点kdc服务登陆测试账号kadmin.local验证安装脚本主机列表主机名称IP硬件配置pass-eda-hdp-00110.218.12.1480 Core、256 Gpass-eda-hdp-00310.218.12.1880 Core、256

2022-05-19 14:40:00 1308 1

原创 hive Couldn‘t acquire the DB log notification lock because we reache

文章目录Couldn't acquire the DB log notification lock because we reached the maximu背景sql脚本报错解决参考问题描述后续背景原因分析解决第一种关闭自动分区发现(不推荐)第二种 修改external.table.purge参考Couldn’t acquire the DB log notification lock because we reached the maximu背景集群遇到了个问题,Hadoop 3版本的,有20个5

2022-05-19 14:38:36 740

原创 NAMENODE双活,数据不能写入

背景公司在黑龙江的集群用了7年,最近总是遇到namenode双活,数据无法写入问题。问题2022-03-28 11:02:38,318 INFO ipc.Server (Server.java:run(2172)) - IPC Server handler 49 on 8020, call org.apache.hadoop.hdfs.protocol.ClientProtocol.getBlockLocations from 136.192.59.173:43484 Call#4 Retry#3

2022-04-12 15:17:38 541

原创 TezSession has already shutdown. No cluster diagnostics found.

ERROR [HiveServer2-Background-Pool: Thread-5702712]: tez.TezTask (:()) - Failed to execute tez graph.org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown. No cluster diagnostics found. at org.apache.tez.client.TezClient.waitTi

2022-03-25 11:41:28 3842 3

原创 原生spark-sql连接原生hive问题

报错22/02/22 10:24:20 INFO Client: Application report for application_1642757441712_0012 (state: FAILED)22/02/22 10:24:20 INFO Client: client token: N/A diagnostics: Application application_1642757441712_0012 failed 2 times due to AM Cont

2022-02-22 11:19:27 1674

原创 安装原生zookeeper报错Address unresolved: 10.19.32.30:3888

报错ERROR [main:QuorumPeerMain@98] - Invalid config, exiting abnormallyorg.apache.zookeeper.server.quorum.QuorumPeerConfig$ConfigException: Address unresolved: 10.19.32.30:3888 at org.apache.zookeeper.server.quorum.QuorumPeer$QuorumServer.<init&

2022-01-17 17:25:31 4047 7

原创 mysql mysqldump用于主主(主从)复制(不加锁,不影响业务)

mysqldump用于主主(主从)复制(不加锁,不影响业务)操作1.备份主库数据mysqldump -uroot -pR1234qwroot -F --master-data=2 -A --add-drop-database --add-drop-table > all.sql2.从库加载数据source /home/odcp/all.sql3.从库修改log位置#查看MASTER_LOG_FILEhead -30 all.sqlCHANGE MASTER TO MASTE

2022-01-08 17:25:03 1226

原创 pyspark TypeError: ‘JavaPackage‘ object is not callable

pyspark 初始化报错问题Python 3.7.10 (default, Jun 4 2021, 14:48:32)[GCC 7.5.0] :: Anaconda, Inc. on linuxType "help", "copyright", "credits" or "license" for more information.Warning: Ignoring non-spark config property: history.server.spnego.keytab.file=/et

2021-12-29 18:04:37 5864

原创 hbase 元数据修复

hbase 元数据修复问题hbase fck 报错:..2021-12-28 16:57:20,906 INFO [main] util.HBaseFsck: Loading region information from HDFS2021-12-28 16:57:21,506 INFO [main] util.HBaseFsck: Checking and fixing region consistencyERROR: Region { meta => SYSTEM.LOG,\x0

2021-12-28 21:09:06 2972

原创 mysql双主+keepalived实现mysql高可用并为ambari 与hive 提供服务

mysql双主+keepalived实现mysql高可用并为ambari 与hive 提供服务mysql双主同步初始状态1、将主服务器要同步的数据库加锁,避免同步时发生改变:use database_name;flush tables with read lock;2、使用mysqldump工具导出数据:mysqldump -uroot -pxxx database_name >database_name.sqlmysqldump -uroot -pxxx -R database_na

2021-12-24 15:50:07 1010

原创 java.io.IOException: Couldn‘t set up IO streams: java.lang.IllegalArgumentException: KrbException

现象datanode 运行一段时间后,先stale,最后dead报错查看datanode日志:2021-12-18 07:36:09,868 ERROR datanode.DataNode (DataXceiver.java:writeBlock(869)) - DataNode{data=FSDataset{dirpath='[/data01/hadoop/hdfs/data, /data02/hadoop/hdfs/data, /data03/hadoop/hdfs/data, /data04/

2021-12-21 09:30:00 3699

原创 shell 获取hive建表语句并修改orc格式为textfile格式

背景在hive中orc格式会自动将string类型的数据,hdfs文件加载成数据类型,就导致使用多表关联 jion on id = "11"时报错,或查询不出来结果,或者这外部表时造成表结构与实际数据类型不符。操作使用shell脚本获取建表语句,并创建一个相同结构的textfile格式的临时表,将数据导到临时表,删除原表,创建一个相同结构的textfile格式的原表,将临时表数据导回来,再删除临时表使用shell处理因为表太多,我将表名整理到a.out,使用shell及脚本去生成一个sql文件去执

2021-11-22 16:23:06 1984

原创 impala Datanode-side support for getVolumeBlockLocations() must also be enabled in the client config

Datanode-side support for getVolumeBlockLocations() must also be enabled in the client configurationHDFS 源码分析/** * Get block location information about a list of {@link HdfsBlockLocation}. * Used by {@link DistributedFileSystem#getFileBlockStorageLocat

2021-11-21 20:52:35 249

原创 hive meta 元数据在mysql 中查不到列信息

hive meta 元数据在mysql 中查不到列信息背景在hive中查询在mysql中查询解决:使用这个SQL原因分析现象分析解决思路两种sql区别背景hive 使用mysql作为元数据库,在hive中show create table 能够看到表结构,查询mysql,能查到表,却查不到列信息在hive中查询在mysql中查询SQL:SELECT c.* FROM columns_v2 c,tbls t,dbs dWHERE c.CD_ID = t.TBL_ID AND t.DB_ID =

2021-09-01 21:22:32 702

原创 clickhouse 在10亿医疗数据的应用

clickhouseshardshard_counts = node_counts - replica_counts + 1replica_counts 至少是2才有意义if nc=3 rc=2sc =2配置就有问题 所以 nc至少是4

2021-05-14 18:35:28 722

原创 centos7 做raid5

准备安装 mdadmyum -y instll mdadmmdadm参数-a 检测设备名称-n 指定设备数量-l 指定RAID等级-C 创建-v 显示过程-f 模拟设备损坏-r 移除设备-a 增加设备-Q 查看摘要信息-D 查看详细信息-S 停止配置raid5#创建raid 如果是连续的可以简写/dev/sd[b-f]1 mdadm -Cv /dev/md0 -a yes -n 10 -l 5 /dev/sdb1 /dev/sdc1 /dev/sdd1 /dev/sde1

2020-12-10 17:09:55 278164

原创 kafka消费不到远程bootstrap-server 数据

kafka消费不到远程bootstrap-server 数据问题执行 ./bin/kafka-console-consumer.sh --bootstrap-server 10.10.151.12:6667 --topic flink_test取不到数据没有任何返回,也没有报错解决使用./bin/kafka-console-consumer.sh --zookeeper 10.10.151.12:2181 --topic flink_test终于看到报错信息了[2020-12-02 10:06

2020-12-02 10:17:54 278449

原创 azkaban 提交任务不执行直接失败

azkaban 提交任务不执行直接失败azkaban web 报错ERROR [FlowTriggerScheduler] [Azkaban] Unable to get scheduled flow triggers查看web下logcat webServerLog_2020-11-27+18\:11\:24.out 报错信息2020/11/30 15:38:13.483 +0800 ERROR [FlowTriggerScheduler] [Azkaban] Unable to get s

2020-12-01 17:54:56 280199 4

原创 手动清理centos7 buff/cache 占用过高

手动清理centos7 buff/cache 占用过高命令##手动执行sync命令(描述:sync 命令运行 sync 子例程。如果必须停止系统,则运行sync 命令以确保文件系统的完整性。sync 命令将所有未写的系统缓冲区写到磁盘中,包含已修改的 i-node、已延迟的块 I/O 和读写映射文件)[root@localhost internal]# sync[root@localhost internal]# echo 1 > /proc/sys/vm/drop_caches[root@

2020-12-01 17:53:52 280315

原创 Yarn ResourceManager GC overhead limit exceeded

Yarn ResourceManager GC overhead limit exceeded问题FATAL yarn.YarnUncaughtExceptionHandler (YarnUncaughtExceptionHandler.java:uncaughtException(51)) - Thread Thread[Timer for 'ResourceManager' metrics system,5,main] threw an Error. Shutting down now...ja

2020-09-07 15:35:17 278262

原创 使用keepalived 做Carbon Thrift Server HA

Carbon Thrift Server HACarbon Thrift Server先决条件启动keepalived安装编辑check_carbon.shkeepalived.conf配置主节点backup节点测试Carbon Thrift Server先决条件大数据集群环境spark 2.4.5carbondata2.0.1可参考HDP2.6.5更换spark版本为2.4.5 与carbondata2.0.1集成启动分别在两台机器上启动spark-submit --maste

2020-07-03 18:09:21 277738

原创 HDP2.6.5更换spark版本为2.4.5 与carbondata2.0.1集成

文章目录一更换spark版本第一种方式第二种方式一更换spark版本因为要使用的carbondata对spark版本有要求,项目中使用的carbondata版本为2.0.1,spark版本要求为2.4.5第一种方式1)、找到/usr/hdp/2.6.5.0-292/spark2/下的jars路径 并备份为jars_bak/​ 2)、然后从官网下载spark-2.4.5-bin-hadoop2.7的tar包,把所有依赖的jar包拷贝到上面创建的jars路径下cd /usr/hdp/2.6.5.0-

2020-06-29 15:56:32 278722

原创 ambari-server HA

文章目录一、前言二、环境三、mysql主从配置四、同步配置文件五、实现脚本一、前言本篇文章主要讲解Ambari Server端的高可用搭建。注意,是Ambari的Server,而不是Hadoop集群的应用。截止目前为止(Ambari 2.7.x),hortonworks官方并没有给出AmbariServer的高可用的内部实现。二、环境这里我选用的纯离线安装方式,原因主要是受网络限制需要下载的依赖包:ambari-2.5.0.3-centos7.tar.gzHDP-2.6.5.0-centos7

2020-05-26 18:24:22 281535 2

原创 ansible 实现自动化部署ambari(纯离线)

文章目录一、业务场景二、选用技术三、准备四、服务器准备五、配置步骤1、配置网卡(所有节点)2、配置hosts映射(主节点)3、配置主节点到各个机器的ssh(主节点)4、安装ansible5、配置ansible的hosts(ansible使用的ip和定义主机组的映射)六、编写playbook七、附件-脚本1.closeTHP.sh2.modifyLimits.sh3.modifyNtpMaster.sh4.modifyNtpSlave.sh5.installJdk.sh6. closeSelinux.sh7.

2020-05-21 17:43:00 283433 4

原创 kafka topic 权限控制

kafka topic 权限控制kafka官网配置设置权限#查看权限./kafka-acls.sh --authorizer-properties zookeeper.connect=test01:2181,test02:2181,test03:2181 --list#添加权限./kafka-acls.sh --authorizer-properties zookeeper.co...

2020-04-20 12:42:05 287794

原创 redis 启动 报错 The RDB file contains module data I can't load: no matching module 'MBbloom--

##问题 redis启动报错The RDB file contains module data I can’t load: no matching module 'MBbloom-- ’##原因.rdb快照异常可参考 这里.##解决mv /data/data1/redis/slave/dump.rdb /data/data1/redis/slave/dump.rdb.bak图片:重...

2020-03-03 22:08:52 283187

原创 Ambari 安装 Azkaban

Azkaban on Ambari

2020-02-06 17:13:56 283027 4

mysql主主同步配置

mysql主主同步配置

2022-06-16

大数据amabri平台问题

实际生产大数据平台遇到的问题

2022-04-12

ambari安装文档.docx

amabri详细步骤包括1、Linux系统环境配置2、部署前准备工作3、安装MySQL4、配置本地源以及Ambari服务的安装5、搭建HDP集群6、遇到主要问题

2020-06-05

推特开发者账户申请

本文是2018年7月twitter开发者账号不好申请,而写的。

2019-01-18

基于大数据的全球能源信息系统-平台优化手册

基于大数据的全球能源信息系统-平台优化手册,本手册是实际项目中遇到等问题的优化,包括服务器,HDFS,HBASE,nginx,apache等优化

2018-12-10

CISP2018年课件

主要为考CISP的考生准备,2018年最新的CISP课件,涵盖CISP所有基础内容

2018-12-10

centos6 安装CDH5.7

主要讲述centos6安装cdh5.7的安装过程,以及注意事项等。

2018-12-10

从无到有搭建中小型互联网公司后台服务架构和运维架构

本资源主要是针对如何从无到有搭建中小型互联网公司后台服务架构和运维架构的课程,课程所涉及的内容均是当前应用最广泛的技术和工具。本课程所讲解的技术体系已经在多个中小型互联网公司中实战运行使用,目前运行已经非常稳定,数据量也是在不断持续增加。并且,这个技术体系也正在被其他很多互联网公司应用,希望通过此课程,让大家能快速熟练掌握各个技术,并且能实际应用到项目中。课程将会通过实际案例讲解,并且会提供完整的视频案例源码供学员学习使用,同时有需要的企业或学员可以直接拿本套教学案例代码来使用或者二次开发。

2018-12-10

中文正面情感词语 836词

微博搜集中文正面情感词语共836词,提供给大家仅做参考,做情感分析使用

2018-12-03

中文负面情感词语 1254词

微博搜集的中文负面情感词语共1254词,提供给大家做参考,用来做情感分析

2018-12-03

hive 双分区外部表 复合数据结构 样例

hive双分区外部表复合数据结构博客的数据资料,欢迎下载。

2018-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除