夜空07
码龄8年
关注
提问 私信
  • 博客:95,688
    社区:1
    95,689
    总访问量
  • 31
    原创
  • 855,410
    排名
  • 12
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2017-05-05
博客简介:

weixin_38655836的博客

查看详细资料
个人成就
  • 获得14次点赞
  • 内容获得32次评论
  • 获得95次收藏
创作历程
  • 1篇
    2020年
  • 19篇
    2019年
  • 12篇
    2018年
  • 33篇
    2017年
成就勋章
TA的专栏
  • 大数据运维
    12篇
  • cassandra
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

hive map,reduce数目配置优化

map task的数量即mapred.map.tasks的参数值,用户不能直接设置这个参数。Input Split的大小,决定了一个Job拥有多少个map。默认input split的大小是64M(与dfs.block.size的默认值相同)。然而,如果输入的数据量巨大,那么默认的64M的block会有几万甚至几十万的Map Task,集群的网络传输会很大,最严重的是给Job Tracker的调度...
转载
发布博客 2020.03.02 ·
776 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hdfs跨集群数据迁移

mapred.job.queue.name=“root.zm_yarn_pool.production” 设置资源池队列ipc.client.fallback-to-simple-auth-allowed=true 由于使用了kerberos认证,需要设置改属性hadoop distcp -Dmapred.job.queue.name=“root.zm_yarn_pool.production...
原创
发布博客 2019.06.19 ·
605 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

常用指令汇总

1.如果hive出现问题,hive客户端调试课使用hive --hiveconf hive.root.logger=console2.CDH6.2.0 安装的hive是支持spark引擎的,由于yarn使用了资源池限制,使用spark引擎,需要执行两步set mapred.job.queue.name=root.zm_yarn_pool.production;set hive.execut...
原创
发布博客 2019.06.14 ·
266 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kerberos 基本简单命令汇总

创建kerberos用户kadmin.local addprinc -pw 123456 sensen刷新票据echo “123456” | kinit sensen3.删除kerberos用户kadmin.local delete_principal sensen4.下载keytab文件,不影响密码echo -e “addent -password -p sensen-...
原创
发布博客 2019.06.14 ·
1991 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CDH6.2.0集成kerberos(已经集成了ldap,sentry)

服务器列表信息:10.29.200.241 testhadoop-0110.81.51.210 testhadoop-0210.81.75.23 testhadoop-0310.81.66.119 testhadoop-0410.81.88.137 testhadoop-051.在testhadoop-02 服务器上安装KDC服务yum -y install kr...
原创
发布博客 2019.06.12 ·
1630 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

mysql主从服务器搭建

 目标:搭建两台MySQL服务器,一台作为主服务器,一台作为从服务器,实现主从复制环境:   主数据库: 192.168.1.1   从数据库: 192.168.1.2  mysql安装可参考:https://www.cnblogs.com/merely/p/9714681.html配置步骤:1、保证两个数据库中的库和数据是一致的;2、在主数据中创建一个同步账号(...
原创
发布博客 2019.06.10 ·
147 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mysql特殊的启动方式

关闭mysqlmysqladmin -S /tmp/mysql.sock -uroot -p shutdown启动mysql(指定配置文件)/usr/bin/mysqld_safe --defaults-file=/etc/my.cnf &
原创
发布博客 2019.06.10 ·
118 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

saprk-sql使用hive元数据 空指针异常问题

SparkSPARK-18355Spark SQL fails to read data from a ORC hive table that has a new column added to itLog In ExportXMLWordPrintableJSONDetails Type: Bug...
原创
发布博客 2019.05.30 ·
911 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sqoop 增量mysql导入hive数据

1.实现过程包括两步。第一步将mysql的数据通过条件语句增量导入导入到hive的一个临时表中。第二步将临时表中的数据通过动态分区的方式导入到最终的结果表。增量导入hive临时表(可以不使用分区表,需要设置了资源队列):sqoop import -D mapred.job.queue.name=root.zm_yarn_pool.production -Dorg.apache.sqoo...
原创
发布博客 2019.05.27 ·
1513 阅读 ·
2 点赞 ·
1 评论 ·
3 收藏

使用Flume消费Kafka数据到HDFS

<div id="cnblogs_post_body" class="blogpost-body"><h1>1.概述</h1>对于数据的转发,Kafka是一个不错的选择。Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,例如HDFS、HBase等。如果不想使用Kafka API编...
转载
发布博客 2019.05.17 ·
1866 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

CDH6.2.0 kafka安装

开篇回顾:安装过程中,刚开始的时候安装只选择了一个节点,然后测试,使用终端界面生产者消费者,发现生产者发送的消息,消费者都没有收到,最终添加节点为3个之后,就可以消费了。定位原因,可能由于zookpeer是集群模式。部署单个kafka,造成配置存在问题,最终不能消费成功。(个人简介)由于是CDH安装的,启动的脚本目录为: /opt/cloudera/parcels/CDH/lib/kafka...
原创
发布博客 2019.05.11 ·
4459 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

CDH6.2.0 配置sentry

添加spark和yarn用户HUE配置
原创
发布博客 2019.05.05 ·
1380 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

cdh集成ldap

主要参考的服务的网址:经过测试,如果根据腾讯云中的这个文档中的指示,把hiveadmin当成是hive的超级用户的话,会出现sentry赋权有问题的情况(那个hue中的加号(添加role)出不来),所以后面出现hiveadmin用户的情况,这里后面都需要变成hive,就可以了03-Active Directory的使用与验证: https://mp.weixin.qq.com/s?__biz=...
原创
发布博客 2019.05.05 ·
5048 阅读 ·
1 点赞 ·
2 评论 ·
2 收藏

CDH 安装 presto集成hive和mysql

<div class="article-header-box"> <div class="article-header"> <div class="article-title-box"> <span class="article-type type-2 float-left">转</span> <h1 class=...
转载
发布博客 2019.04.26 ·
891 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

cassandra 集群安装

cassandra 集群安装(操作系统 centos 7)参考链接:https://www.jianshu.com/p/96b1dc43f617修改的配置文件主要是三个:cassandra.yaml,cassandra-env.sh,jvm.properties。(1)cassandra.yaml这个配置文件最为重要,使用yaml格式配置。下面主要讲几个非常重要的配置,最好将这几个配置项都...
原创
发布博客 2019.04.24 ·
350 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Java AES256加密解密实现(Hive udf函数)

AES加密解密类:package com.zmlearn.udf;import java.security.SecureRandom;import javax.crypto.Cipher;import javax.crypto.KeyGenerator;import javax.crypto.SecretKey;import javax.crypto.spec.SecretKey...
原创
发布博客 2019.04.17 ·
3562 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

sqoop -D 指定资源池( mapred.job.queue.name=root.myqueue)或者( mapred.job.queuename=root.myqueue)

sqoop import -D mapred.job.queue.name=root.myqueue –connect jdbc:oracle:thin:@192.168.1.128:1521:mydatabase –username jsz –password 123456 ...
转载
发布博客 2019.04.13 ·
6025 阅读 ·
2 点赞 ·
1 评论 ·
13 收藏

安装单机的hbase2.1.0安装

安装单机habse已具备的前提条件:hadoop集群已经具备hbase 的下载链接:http://archive.apache.org/dist/hbase/2.1.0/hbase-2.1.0-bin.tar.gzhbase的部署目录为:/user/local/bigdata/将下载的压缩包解压到部署目录。1.修改配置文件:hbase-env.sh添加export JAVA_HOME=...
原创
发布博客 2019.03.22 ·
1244 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

基于CentOS7安装CM/mysql便捷安装

&amp;lt;div data-spm=&quot;417460&quot; data-moduleid=&quot;136920&quot; data-name=&quot;aliyun-common-topbar-2016-simple&quot; data-guid=&quot;417460&quot; id=&quot;guid-417460&quot; data-scene-id=&quot;0&am
转载
发布博客 2019.03.01 ·
418 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

离线安装 Cloudera ( CDH 5.x )

&lt;div id="post_detail"&gt;&lt;div class="post"&gt; &lt;h2&gt; &lt;a id="cb_post_title_url" href="https://www.cnblogs.com/modestmt/p/4540818.html"&gt;离线安装 Cloudera ( CDH 5.x )
转载
发布博客 2019.02.27 ·
610 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多