hive map,reduce数目配置优化 map task的数量即mapred.map.tasks的参数值,用户不能直接设置这个参数。Input Split的大小,决定了一个Job拥有多少个map。默认input split的大小是64M(与dfs.block.size的默认值相同)。然而,如果输入的数据量巨大,那么默认的64M的block会有几万甚至几十万的Map Task,集群的网络传输会很大,最严重的是给Job Tracker的调度...
hdfs跨集群数据迁移 mapred.job.queue.name=“root.zm_yarn_pool.production” 设置资源池队列ipc.client.fallback-to-simple-auth-allowed=true 由于使用了kerberos认证,需要设置改属性hadoop distcp -Dmapred.job.queue.name=“root.zm_yarn_pool.production...
常用指令汇总 1.如果hive出现问题,hive客户端调试课使用hive --hiveconf hive.root.logger=console2.CDH6.2.0 安装的hive是支持spark引擎的,由于yarn使用了资源池限制,使用spark引擎,需要执行两步set mapred.job.queue.name=root.zm_yarn_pool.production;set hive.execut...
kerberos 基本简单命令汇总 创建kerberos用户kadmin.local addprinc -pw 123456 sensen刷新票据echo “123456” | kinit sensen3.删除kerberos用户kadmin.local delete_principal sensen4.下载keytab文件,不影响密码echo -e “addent -password -p sensen-...
CDH6.2.0集成kerberos(已经集成了ldap,sentry) 服务器列表信息:10.29.200.241 testhadoop-0110.81.51.210 testhadoop-0210.81.75.23 testhadoop-0310.81.66.119 testhadoop-0410.81.88.137 testhadoop-051.在testhadoop-02 服务器上安装KDC服务yum -y install kr...
mysql主从服务器搭建 目标:搭建两台MySQL服务器,一台作为主服务器,一台作为从服务器,实现主从复制环境: 主数据库: 192.168.1.1 从数据库: 192.168.1.2 mysql安装可参考:https://www.cnblogs.com/merely/p/9714681.html配置步骤:1、保证两个数据库中的库和数据是一致的;2、在主数据中创建一个同步账号(...
mysql特殊的启动方式 关闭mysqlmysqladmin -S /tmp/mysql.sock -uroot -p shutdown启动mysql(指定配置文件)/usr/bin/mysqld_safe --defaults-file=/etc/my.cnf &
saprk-sql使用hive元数据 空指针异常问题 SparkSPARK-18355Spark SQL fails to read data from a ORC hive table that has a new column added to itLog In ExportXMLWordPrintableJSONDetails Type: Bug...
sqoop 增量mysql导入hive数据 1.实现过程包括两步。第一步将mysql的数据通过条件语句增量导入导入到hive的一个临时表中。第二步将临时表中的数据通过动态分区的方式导入到最终的结果表。增量导入hive临时表(可以不使用分区表,需要设置了资源队列):sqoop import -D mapred.job.queue.name=root.zm_yarn_pool.production -Dorg.apache.sqoo...
使用Flume消费Kafka数据到HDFS <div id="cnblogs_post_body" class="blogpost-body"><h1>1.概述</h1>对于数据的转发,Kafka是一个不错的选择。Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,例如HDFS、HBase等。如果不想使用Kafka API编...
CDH6.2.0 kafka安装 开篇回顾:安装过程中,刚开始的时候安装只选择了一个节点,然后测试,使用终端界面生产者消费者,发现生产者发送的消息,消费者都没有收到,最终添加节点为3个之后,就可以消费了。定位原因,可能由于zookpeer是集群模式。部署单个kafka,造成配置存在问题,最终不能消费成功。(个人简介)由于是CDH安装的,启动的脚本目录为: /opt/cloudera/parcels/CDH/lib/kafka...
cdh集成ldap 主要参考的服务的网址:经过测试,如果根据腾讯云中的这个文档中的指示,把hiveadmin当成是hive的超级用户的话,会出现sentry赋权有问题的情况(那个hue中的加号(添加role)出不来),所以后面出现hiveadmin用户的情况,这里后面都需要变成hive,就可以了03-Active Directory的使用与验证: https://mp.weixin.qq.com/s?__biz=...
CDH 安装 presto集成hive和mysql <div class="article-header-box"> <div class="article-header"> <div class="article-title-box"> <span class="article-type type-2 float-left">转</span> <h1 class=...
cassandra 集群安装 cassandra 集群安装(操作系统 centos 7)参考链接:https://www.jianshu.com/p/96b1dc43f617修改的配置文件主要是三个:cassandra.yaml,cassandra-env.sh,jvm.properties。(1)cassandra.yaml这个配置文件最为重要,使用yaml格式配置。下面主要讲几个非常重要的配置,最好将这几个配置项都...
Java AES256加密解密实现(Hive udf函数) AES加密解密类:package com.zmlearn.udf;import java.security.SecureRandom;import javax.crypto.Cipher;import javax.crypto.KeyGenerator;import javax.crypto.SecretKey;import javax.crypto.spec.SecretKey...
sqoop -D 指定资源池( mapred.job.queue.name=root.myqueue)或者( mapred.job.queuename=root.myqueue) sqoop import -D mapred.job.queue.name=root.myqueue –connect jdbc:oracle:thin:@192.168.1.128:1521:mydatabase –username jsz –password 123456 ...
安装单机的hbase2.1.0安装 安装单机habse已具备的前提条件:hadoop集群已经具备hbase 的下载链接:http://archive.apache.org/dist/hbase/2.1.0/hbase-2.1.0-bin.tar.gzhbase的部署目录为:/user/local/bigdata/将下载的压缩包解压到部署目录。1.修改配置文件:hbase-env.sh添加export JAVA_HOME=...
基于CentOS7安装CM/mysql便捷安装 &lt;div data-spm="417460" data-moduleid="136920" data-name="aliyun-common-topbar-2016-simple" data-guid="417460" id="guid-417460" data-scene-id="0&am
离线安装 Cloudera ( CDH 5.x ) <div id="post_detail"><div class="post"> <h2> <a id="cb_post_title_url" href="https://www.cnblogs.com/modestmt/p/4540818.html">离线安装 Cloudera ( CDH 5.x )