自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

转载 hive map,reduce数目配置优化

map task的数量即mapred.map.tasks的参数值,用户不能直接设置这个参数。Input Split的大小,决定了一个Job拥有多少个map。默认input split的大小是64M(与dfs.block.size的默认值相同)。然而,如果输入的数据量巨大,那么默认的64M的block会有几万甚至几十万的Map Task,集群的网络传输会很大,最严重的是给Job Tracker的调度...

2020-03-02 13:33:07 579

原创 hdfs跨集群数据迁移

mapred.job.queue.name=“root.zm_yarn_pool.production” 设置资源池队列ipc.client.fallback-to-simple-auth-allowed=true 由于使用了kerberos认证,需要设置改属性hadoop distcp -Dmapred.job.queue.name=“root.zm_yarn_pool.production...

2019-06-19 17:14:54 534

原创 常用指令汇总

1.如果hive出现问题,hive客户端调试课使用hive --hiveconf hive.root.logger=console2.CDH6.2.0 安装的hive是支持spark引擎的,由于yarn使用了资源池限制,使用spark引擎,需要执行两步set mapred.job.queue.name=root.zm_yarn_pool.production;set hive.execut...

2019-06-14 14:04:43 212

原创 kerberos 基本简单命令汇总

创建kerberos用户kadmin.local addprinc -pw 123456 sensen刷新票据echo “123456” | kinit sensen3.删除kerberos用户kadmin.local delete_principal sensen4.下载keytab文件,不影响密码echo -e “addent -password -p sensen-...

2019-06-14 11:46:55 1923

原创 CDH6.2.0集成kerberos(已经集成了ldap,sentry)

服务器列表信息:10.29.200.241 testhadoop-0110.81.51.210 testhadoop-0210.81.75.23 testhadoop-0310.81.66.119 testhadoop-0410.81.88.137 testhadoop-051.在testhadoop-02 服务器上安装KDC服务yum -y install kr...

2019-06-12 18:31:36 1574

原创 mysql主从服务器搭建

 目标:搭建两台MySQL服务器,一台作为主服务器,一台作为从服务器,实现主从复制环境:   主数据库: 192.168.1.1   从数据库: 192.168.1.2  mysql安装可参考:https://www.cnblogs.com/merely/p/9714681.html配置步骤:1、保证两个数据库中的库和数据是一致的;2、在主数据中创建一个同步账号(...

2019-06-10 19:10:02 122

原创 mysql特殊的启动方式

关闭mysqlmysqladmin -S /tmp/mysql.sock -uroot -p shutdown启动mysql(指定配置文件)/usr/bin/mysqld_safe --defaults-file=/etc/my.cnf &

2019-06-10 14:26:23 95

原创 saprk-sql使用hive元数据 空指针异常问题

SparkSPARK-18355Spark SQL fails to read data from a ORC hive table that has a new column added to itLog In ExportXMLWordPrintableJSONDetails Type: Bug...

2019-05-30 10:29:51 829

原创 sqoop 增量mysql导入hive数据

1.实现过程包括两步。第一步将mysql的数据通过条件语句增量导入导入到hive的一个临时表中。第二步将临时表中的数据通过动态分区的方式导入到最终的结果表。增量导入hive临时表(可以不使用分区表,需要设置了资源队列):sqoop import -D mapred.job.queue.name=root.zm_yarn_pool.production -Dorg.apache.sqoo...

2019-05-27 14:31:55 1418 1

转载 使用Flume消费Kafka数据到HDFS

<div id="cnblogs_post_body" class="blogpost-body"><h1>1.概述</h1>对于数据的转发,Kafka是一个不错的选择。Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,例如HDFS、HBase等。如果不想使用Kafka API编...

2019-05-17 17:49:24 1774

原创 CDH6.2.0 kafka安装

开篇回顾:安装过程中,刚开始的时候安装只选择了一个节点,然后测试,使用终端界面生产者消费者,发现生产者发送的消息,消费者都没有收到,最终添加节点为3个之后,就可以消费了。定位原因,可能由于zookpeer是集群模式。部署单个kafka,造成配置存在问题,最终不能消费成功。(个人简介)由于是CDH安装的,启动的脚本目录为: /opt/cloudera/parcels/CDH/lib/kafka...

2019-05-11 17:04:31 4354 2

原创 CDH6.2.0 配置sentry

添加spark和yarn用户HUE配置

2019-05-05 17:12:34 1345

原创 cdh集成ldap

主要参考的服务的网址:经过测试,如果根据腾讯云中的这个文档中的指示,把hiveadmin当成是hive的超级用户的话,会出现sentry赋权有问题的情况(那个hue中的加号(添加role)出不来),所以后面出现hiveadmin用户的情况,这里后面都需要变成hive,就可以了03-Active Directory的使用与验证: https://mp.weixin.qq.com/s?__biz=...

2019-05-05 16:33:55 4958 2

转载 CDH 安装 presto集成hive和mysql

<div class="article-header-box"> <div class="article-header"> <div class="article-title-box"> <span class="article-type type-2 float-left">转</span> <h1 class=...

2019-04-26 11:14:32 827

原创 cassandra 集群安装

cassandra 集群安装(操作系统 centos 7)参考链接:https://www.jianshu.com/p/96b1dc43f617修改的配置文件主要是三个:cassandra.yaml,cassandra-env.sh,jvm.properties。(1)cassandra.yaml这个配置文件最为重要,使用yaml格式配置。下面主要讲几个非常重要的配置,最好将这几个配置项都...

2019-04-24 18:57:42 319

原创 Java AES256加密解密实现(Hive udf函数)

AES加密解密类:package com.zmlearn.udf;import java.security.SecureRandom;import javax.crypto.Cipher;import javax.crypto.KeyGenerator;import javax.crypto.SecretKey;import javax.crypto.spec.SecretKey...

2019-04-17 13:39:54 3380

转载 sqoop -D 指定资源池( mapred.job.queue.name=root.myqueue)或者( mapred.job.queuename=root.myqueue)

sqoop import -D mapred.job.queue.name=root.myqueue –connect jdbc:oracle:thin:@192.168.1.128:1521:mydatabase –username jsz –password 123456 ...

2019-04-13 16:08:19 5875 1

原创 安装单机的hbase2.1.0安装

安装单机habse已具备的前提条件:hadoop集群已经具备hbase 的下载链接:http://archive.apache.org/dist/hbase/2.1.0/hbase-2.1.0-bin.tar.gzhbase的部署目录为:/user/local/bigdata/将下载的压缩包解压到部署目录。1.修改配置文件:hbase-env.sh添加export JAVA_HOME=...

2019-03-22 15:41:07 1160

转载 基于CentOS7安装CM/mysql便捷安装

&amp;lt;div data-spm=&quot;417460&quot; data-moduleid=&quot;136920&quot; data-name=&quot;aliyun-common-topbar-2016-simple&quot; data-guid=&quot;417460&quot; id=&quot;guid-417460&quot; data-scene-id=&quot;0&am

2019-03-01 09:55:13 371

转载 离线安装 Cloudera ( CDH 5.x )

&lt;div id="post_detail"&gt;&lt;div class="post"&gt; &lt;h2&gt; &lt;a id="cb_post_title_url" href="https://www.cnblogs.com/modestmt/p/4540818.html"&gt;离线安装 Cloudera ( CDH 5.x )

2019-02-27 16:46:02 500

转载 Linux LVM逻辑卷配置过程详解

&lt;div class="forFlow"&gt; Linux LVM逻辑卷配置过程详解(创建,增加,减少,删除,卸载) &nbsp;Linux LVM逻辑卷配置过程详解许多Linux使用者安装操作系统时都会遇到这样的困境:如何精确评估和分配各个硬盘分区的容量,如果当初评估不准确,一旦系统分区不够用时可能不得不备份、删除相关数据,甚至被迫重...

2018-09-26 14:08:57 343

转载 Centos7-安装telnet服务 (转)

1,检查是否安装 telnet-server和xinetdrpm -qa telnet-serverrpm -qa xinetd2,如果没有安装过就安装 查找yumyum list |grep telnetyum list |grep xinetd3,执行安装语句yum -y install telnet-server.x86_64yum -y instal...

2018-08-27 10:57:28 352

转载 Hive 产生大量的临时文件(转载)

&amp;lt;ul class=&quot;articles clearfix&quot;&amp;gt; &amp;lt;li id=&quot;post-1297&quot; class=&quot;article post-1297 post type-post status-publish format-standard hentry category-technique&quot;&amp

2018-07-10 18:31:36 5046 1

转载 hadoop的ganglia数据监控

如果我们想知道当前运行的hadoop集群的状态,可以通过hadoop的客户端和web页面来获得,但是如果我们想知道当前集群的繁忙程度,如读写次数,这些工具就办不到了。幸运的是hadoop提供了一种ganglia的数据采集方式。在这篇文章里,将介绍一下hadoop与ganglia的配置方式。Hadoop 版本:1.2.1OS 版本: Centos6.4Jdk 版本: jdk1.6.0_3...

2018-07-02 13:20:28 300 1

转载 Hive元数据信息对应MySQL数据库表(转载)

Hive学习之路 (三)Hive元数据信息对应MySQL数据库表 讨论QQ:1586558083目录概述一、存储Hive版本的元数据表(VERSION)二、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS)1、DBS2、DATABASE_P...

2018-06-14 19:24:37 1023

转载 Actor模型原理

&lt;div id="cnblogs_post_body" class="blogpost-body cnblogs-markdown"&gt;&lt;h1 id="actor模型"&gt;1.Actor模型&lt;/h1&gt;在使用Java进行并发编程时需要特别的关注锁和内存原子性等一系列线程问题,而Actor模型内部的状态由它自己维护即它内部数据只能由它自己修改(通过..

2018-05-18 16:37:17 235

转载 【大数据系列】hadoop2.0中的jobtracker和tasktracker哪里去了

低版本的hadoop下MapReduce处理流程1、首先用户程序(JobClient)提交了一个job,job的信息会发送到Job Tracker,Job Tracker是Map-reduce框架的中心,他需要与集群中的机器定时通信heartbeat,需要管理哪些程序应该跑在哪些机器上,需要管理所有job失败、重启等操作。2、TaskTracker是Map-Reduce集群中每台机器都有的一...

2018-05-16 10:28:52 1654

转载 Java 动态代理作用

默认排序​Intopass程序员,近期沉迷于动漫ING305 人赞同了该回答① 首先你要明白静态代理的作用我们有一个字体提供类,有多种实现(从磁盘,从网络,从系统)public interface FontProvider { Font getFont(String name);}public abstract class ProviderFactory { public s...

2018-05-10 17:32:13 523

转载 Redis使用总结(1):基础使用

Redis使用总结(1):基础使用 Redis的安装及启动安装Ubuntusudo apt-get install redisMacsudo brew install redisWindows不支持启动首先启动Redis服务器r...

2018-05-09 09:46:59 163

原创 1.Java 获得给定目录下 17年之前的文件/文件夹---------2.对指定的文件或者文件夹进行压缩

1.需求:由于服务器存储空间不足,读某一指定目录下18年之前的文件进行压缩。获取指定目录下的满足条件的文件或者文件夹,如果文件夹下文件都是17年之前的文件,文件夹返回。简单理解就是 如果文件夹下面都满足情况,则文件夹返回做压缩操作。如果文件夹下面有18年的文件,就单独返回该目录下18年之前的文件做压缩操作,对子文件夹重新判断。package com.css.filezip;import jav...

2018-05-02 15:35:30 262

原创 Java 获得文件的创建时间和修改时间

package com.css.file;import java.nio.file.Files;import java.nio.file.LinkOption;import java.nio.file.Path;import java.nio.file.Paths;import java.nio.file.attribute.BasicFileAttributeView;import...

2018-05-02 14:56:10 9519

转载 SpringBoot整合Quartz定时任务

(1)什么是Quartz?(2)Quartz的特点;(3)Quartz专用词汇说明;(4)Quartz任务调度基本实现原理;        接下来看下具体的内容:(1)什么是Quartz?Quartz是一个完全由Java编写的开源作业调度框架,为在Java应用程序中进行作业调度提供了简单却强大的机制。Quartz允许开发人员根据时间间隔来调度作业。它实现了作业和触发器的多对多的关系,还能把多个作业...

2018-04-11 15:46:08 785

转载 Intellij IDEA中java和scala开发流程

在IDEA 14.1中新建maven工程spark-graphx-test然后找到:File->Project Structure->Project Settings->Modules->Sources->src->main 右键点击New Folder,新建scala目录,然后选中scala,点击Sources。此步骤完成新建一个scala目录,并把此目录作为和java目录并列的源文件目

2017-12-08 15:59:23 726

转载 Kafka(自带的zookeeper)集群搭建详细步骤

Kafka集群搭建1、 Kafka的安装需要java环境,cent os 7自带java1.6版本,可以不用重新安装,直接使用自带的jdk 即可;如果觉得jdk版本太旧,也可以自己重新安装;2、 准备好kafka安装包,官网下载地址: http://kafka.apache.org/downloads.html3、 下载好kafka安装包后,将其解压到/usr/local目录下,删

2017-11-22 17:36:00 9129 1

转载 【Spark Java API】Action(3)—foreach、foreachPartition、lookup

foreach官方文档描述:Applies a function f to all elements of this RDD.12函数原型:def foreach(f: VoidFunction[T])1foreach用于遍历RDD,将函数f应用于每一个元素。源码分析:def foreach(f: T => Unit): Unit = withScope {

2017-11-13 22:00:16 445

转载 spark streaming - kafka updateStateByKey 统计用户消费金额

场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}

2017-11-13 21:57:54 559 1

转载 Spark-Streaming之window滑动窗口应用

Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。网官图中所示,就是对每三秒钟的数据执行一次滑动窗口计算,这3秒内的3个RDD会被聚合起来进行处理,然后过了两

2017-11-13 21:55:40 208

转载 Spark中的checkpoint作用与用法

checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问

2017-11-13 21:53:47 294

转载 spark JavaDirectKafkaWordCount 例子分析

spark  JavaDirectKafkaWordCount 例子分析:1、KafkaUtils.createDirectStream( jssc, String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaPar

2017-11-13 16:52:24 398

转载 spark streaming 接收 kafka 数据java代码WordCount示例

spark streaming 接收 kafka 数据java代码WordCount示例1. 首先启动zookeeper2. 启动kafka3. 核心代码生产者生产消息的java代码,生成要统计的单词package streaming;import java.util.Properties; import kafka.javaapi.pro

2017-11-13 10:39:40 859

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除