- 博客(65)
- 收藏
- 关注
转载 hive map,reduce数目配置优化
map task的数量即mapred.map.tasks的参数值,用户不能直接设置这个参数。Input Split的大小,决定了一个Job拥有多少个map。默认input split的大小是64M(与dfs.block.size的默认值相同)。然而,如果输入的数据量巨大,那么默认的64M的block会有几万甚至几十万的Map Task,集群的网络传输会很大,最严重的是给Job Tracker的调度...
2020-03-02 13:33:07 653
原创 hdfs跨集群数据迁移
mapred.job.queue.name=“root.zm_yarn_pool.production” 设置资源池队列ipc.client.fallback-to-simple-auth-allowed=true 由于使用了kerberos认证,需要设置改属性hadoop distcp -Dmapred.job.queue.name=“root.zm_yarn_pool.production...
2019-06-19 17:14:54 556
原创 常用指令汇总
1.如果hive出现问题,hive客户端调试课使用hive --hiveconf hive.root.logger=console2.CDH6.2.0 安装的hive是支持spark引擎的,由于yarn使用了资源池限制,使用spark引擎,需要执行两步set mapred.job.queue.name=root.zm_yarn_pool.production;set hive.execut...
2019-06-14 14:04:43 218
原创 kerberos 基本简单命令汇总
创建kerberos用户kadmin.local addprinc -pw 123456 sensen刷新票据echo “123456” | kinit sensen3.删除kerberos用户kadmin.local delete_principal sensen4.下载keytab文件,不影响密码echo -e “addent -password -p sensen-...
2019-06-14 11:46:55 1930
原创 CDH6.2.0集成kerberos(已经集成了ldap,sentry)
服务器列表信息:10.29.200.241 testhadoop-0110.81.51.210 testhadoop-0210.81.75.23 testhadoop-0310.81.66.119 testhadoop-0410.81.88.137 testhadoop-051.在testhadoop-02 服务器上安装KDC服务yum -y install kr...
2019-06-12 18:31:36 1580
原创 mysql主从服务器搭建
目标:搭建两台MySQL服务器,一台作为主服务器,一台作为从服务器,实现主从复制环境: 主数据库: 192.168.1.1 从数据库: 192.168.1.2 mysql安装可参考:https://www.cnblogs.com/merely/p/9714681.html配置步骤:1、保证两个数据库中的库和数据是一致的;2、在主数据中创建一个同步账号(...
2019-06-10 19:10:02 124
原创 mysql特殊的启动方式
关闭mysqlmysqladmin -S /tmp/mysql.sock -uroot -p shutdown启动mysql(指定配置文件)/usr/bin/mysqld_safe --defaults-file=/etc/my.cnf &
2019-06-10 14:26:23 101
原创 saprk-sql使用hive元数据 空指针异常问题
SparkSPARK-18355Spark SQL fails to read data from a ORC hive table that has a new column added to itLog In ExportXMLWordPrintableJSONDetails Type: Bug...
2019-05-30 10:29:51 842
原创 sqoop 增量mysql导入hive数据
1.实现过程包括两步。第一步将mysql的数据通过条件语句增量导入导入到hive的一个临时表中。第二步将临时表中的数据通过动态分区的方式导入到最终的结果表。增量导入hive临时表(可以不使用分区表,需要设置了资源队列):sqoop import -D mapred.job.queue.name=root.zm_yarn_pool.production -Dorg.apache.sqoo...
2019-05-27 14:31:55 1427 1
转载 使用Flume消费Kafka数据到HDFS
<div id="cnblogs_post_body" class="blogpost-body"><h1>1.概述</h1>对于数据的转发,Kafka是一个不错的选择。Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,例如HDFS、HBase等。如果不想使用Kafka API编...
2019-05-17 17:49:24 1794
原创 CDH6.2.0 kafka安装
开篇回顾:安装过程中,刚开始的时候安装只选择了一个节点,然后测试,使用终端界面生产者消费者,发现生产者发送的消息,消费者都没有收到,最终添加节点为3个之后,就可以消费了。定位原因,可能由于zookpeer是集群模式。部署单个kafka,造成配置存在问题,最终不能消费成功。(个人简介)由于是CDH安装的,启动的脚本目录为: /opt/cloudera/parcels/CDH/lib/kafka...
2019-05-11 17:04:31 4375 2
原创 cdh集成ldap
主要参考的服务的网址:经过测试,如果根据腾讯云中的这个文档中的指示,把hiveadmin当成是hive的超级用户的话,会出现sentry赋权有问题的情况(那个hue中的加号(添加role)出不来),所以后面出现hiveadmin用户的情况,这里后面都需要变成hive,就可以了03-Active Directory的使用与验证: https://mp.weixin.qq.com/s?__biz=...
2019-05-05 16:33:55 4968 2
转载 CDH 安装 presto集成hive和mysql
<div class="article-header-box"> <div class="article-header"> <div class="article-title-box"> <span class="article-type type-2 float-left">转</span> <h1 class=...
2019-04-26 11:14:32 844
原创 cassandra 集群安装
cassandra 集群安装(操作系统 centos 7)参考链接:https://www.jianshu.com/p/96b1dc43f617修改的配置文件主要是三个:cassandra.yaml,cassandra-env.sh,jvm.properties。(1)cassandra.yaml这个配置文件最为重要,使用yaml格式配置。下面主要讲几个非常重要的配置,最好将这几个配置项都...
2019-04-24 18:57:42 320
原创 Java AES256加密解密实现(Hive udf函数)
AES加密解密类:package com.zmlearn.udf;import java.security.SecureRandom;import javax.crypto.Cipher;import javax.crypto.KeyGenerator;import javax.crypto.SecretKey;import javax.crypto.spec.SecretKey...
2019-04-17 13:39:54 3449
转载 sqoop -D 指定资源池( mapred.job.queue.name=root.myqueue)或者( mapred.job.queuename=root.myqueue)
sqoop import -D mapred.job.queue.name=root.myqueue –connect jdbc:oracle:thin:@192.168.1.128:1521:mydatabase –username jsz –password 123456 ...
2019-04-13 16:08:19 5913 1
原创 安装单机的hbase2.1.0安装
安装单机habse已具备的前提条件:hadoop集群已经具备hbase 的下载链接:http://archive.apache.org/dist/hbase/2.1.0/hbase-2.1.0-bin.tar.gzhbase的部署目录为:/user/local/bigdata/将下载的压缩包解压到部署目录。1.修改配置文件:hbase-env.sh添加export JAVA_HOME=...
2019-03-22 15:41:07 1175
转载 基于CentOS7安装CM/mysql便捷安装
&lt;div data-spm="417460" data-moduleid="136920" data-name="aliyun-common-topbar-2016-simple" data-guid="417460" id="guid-417460" data-scene-id="0&am
2019-03-01 09:55:13 380
转载 离线安装 Cloudera ( CDH 5.x )
<div id="post_detail"><div class="post"> <h2> <a id="cb_post_title_url" href="https://www.cnblogs.com/modestmt/p/4540818.html">离线安装 Cloudera ( CDH 5.x )
2019-02-27 16:46:02 528
转载 Linux LVM逻辑卷配置过程详解
<div class="forFlow"> Linux LVM逻辑卷配置过程详解(创建,增加,减少,删除,卸载) Linux LVM逻辑卷配置过程详解许多Linux使用者安装操作系统时都会遇到这样的困境:如何精确评估和分配各个硬盘分区的容量,如果当初评估不准确,一旦系统分区不够用时可能不得不备份、删除相关数据,甚至被迫重...
2018-09-26 14:08:57 350
转载 Centos7-安装telnet服务 (转)
1,检查是否安装 telnet-server和xinetdrpm -qa telnet-serverrpm -qa xinetd2,如果没有安装过就安装 查找yumyum list |grep telnetyum list |grep xinetd3,执行安装语句yum -y install telnet-server.x86_64yum -y instal...
2018-08-27 10:57:28 355
转载 Hive 产生大量的临时文件(转载)
&lt;ul class="articles clearfix"&gt; &lt;li id="post-1297" class="article post-1297 post type-post status-publish format-standard hentry category-technique"&
2018-07-10 18:31:36 5071 1
转载 hadoop的ganglia数据监控
如果我们想知道当前运行的hadoop集群的状态,可以通过hadoop的客户端和web页面来获得,但是如果我们想知道当前集群的繁忙程度,如读写次数,这些工具就办不到了。幸运的是hadoop提供了一种ganglia的数据采集方式。在这篇文章里,将介绍一下hadoop与ganglia的配置方式。Hadoop 版本:1.2.1OS 版本: Centos6.4Jdk 版本: jdk1.6.0_3...
2018-07-02 13:20:28 307 1
转载 Hive元数据信息对应MySQL数据库表(转载)
Hive学习之路 (三)Hive元数据信息对应MySQL数据库表 讨论QQ:1586558083目录概述一、存储Hive版本的元数据表(VERSION)二、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS)1、DBS2、DATABASE_P...
2018-06-14 19:24:37 1032
转载 Actor模型原理
<div id="cnblogs_post_body" class="blogpost-body cnblogs-markdown"><h1 id="actor模型">1.Actor模型</h1>在使用Java进行并发编程时需要特别的关注锁和内存原子性等一系列线程问题,而Actor模型内部的状态由它自己维护即它内部数据只能由它自己修改(通过..
2018-05-18 16:37:17 238
转载 【大数据系列】hadoop2.0中的jobtracker和tasktracker哪里去了
低版本的hadoop下MapReduce处理流程1、首先用户程序(JobClient)提交了一个job,job的信息会发送到Job Tracker,Job Tracker是Map-reduce框架的中心,他需要与集群中的机器定时通信heartbeat,需要管理哪些程序应该跑在哪些机器上,需要管理所有job失败、重启等操作。2、TaskTracker是Map-Reduce集群中每台机器都有的一...
2018-05-16 10:28:52 1695
转载 Java 动态代理作用
默认排序Intopass程序员,近期沉迷于动漫ING305 人赞同了该回答① 首先你要明白静态代理的作用我们有一个字体提供类,有多种实现(从磁盘,从网络,从系统)public interface FontProvider { Font getFont(String name);}public abstract class ProviderFactory { public s...
2018-05-10 17:32:13 583
转载 Redis使用总结(1):基础使用
Redis使用总结(1):基础使用 Redis的安装及启动安装Ubuntusudo apt-get install redisMacsudo brew install redisWindows不支持启动首先启动Redis服务器r...
2018-05-09 09:46:59 167
原创 1.Java 获得给定目录下 17年之前的文件/文件夹---------2.对指定的文件或者文件夹进行压缩
1.需求:由于服务器存储空间不足,读某一指定目录下18年之前的文件进行压缩。获取指定目录下的满足条件的文件或者文件夹,如果文件夹下文件都是17年之前的文件,文件夹返回。简单理解就是 如果文件夹下面都满足情况,则文件夹返回做压缩操作。如果文件夹下面有18年的文件,就单独返回该目录下18年之前的文件做压缩操作,对子文件夹重新判断。package com.css.filezip;import jav...
2018-05-02 15:35:30 266
原创 Java 获得文件的创建时间和修改时间
package com.css.file;import java.nio.file.Files;import java.nio.file.LinkOption;import java.nio.file.Path;import java.nio.file.Paths;import java.nio.file.attribute.BasicFileAttributeView;import...
2018-05-02 14:56:10 9542
转载 SpringBoot整合Quartz定时任务
(1)什么是Quartz?(2)Quartz的特点;(3)Quartz专用词汇说明;(4)Quartz任务调度基本实现原理; 接下来看下具体的内容:(1)什么是Quartz?Quartz是一个完全由Java编写的开源作业调度框架,为在Java应用程序中进行作业调度提供了简单却强大的机制。Quartz允许开发人员根据时间间隔来调度作业。它实现了作业和触发器的多对多的关系,还能把多个作业...
2018-04-11 15:46:08 788
转载 Intellij IDEA中java和scala开发流程
在IDEA 14.1中新建maven工程spark-graphx-test然后找到:File->Project Structure->Project Settings->Modules->Sources->src->main 右键点击New Folder,新建scala目录,然后选中scala,点击Sources。此步骤完成新建一个scala目录,并把此目录作为和java目录并列的源文件目
2017-12-08 15:59:23 734
转载 Kafka(自带的zookeeper)集群搭建详细步骤
Kafka集群搭建1、 Kafka的安装需要java环境,cent os 7自带java1.6版本,可以不用重新安装,直接使用自带的jdk 即可;如果觉得jdk版本太旧,也可以自己重新安装;2、 准备好kafka安装包,官网下载地址: http://kafka.apache.org/downloads.html3、 下载好kafka安装包后,将其解压到/usr/local目录下,删
2017-11-22 17:36:00 9152 1
转载 【Spark Java API】Action(3)—foreach、foreachPartition、lookup
foreach官方文档描述:Applies a function f to all elements of this RDD.12函数原型:def foreach(f: VoidFunction[T])1foreach用于遍历RDD,将函数f应用于每一个元素。源码分析:def foreach(f: T => Unit): Unit = withScope {
2017-11-13 22:00:16 458
转载 spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}
2017-11-13 21:57:54 583 1
转载 Spark-Streaming之window滑动窗口应用
Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。网官图中所示,就是对每三秒钟的数据执行一次滑动窗口计算,这3秒内的3个RDD会被聚合起来进行处理,然后过了两
2017-11-13 21:55:40 210
转载 Spark中的checkpoint作用与用法
checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面 计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问
2017-11-13 21:53:47 303
转载 spark JavaDirectKafkaWordCount 例子分析
spark JavaDirectKafkaWordCount 例子分析:1、KafkaUtils.createDirectStream( jssc, String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaPar
2017-11-13 16:52:24 404
转载 spark streaming 接收 kafka 数据java代码WordCount示例
spark streaming 接收 kafka 数据java代码WordCount示例1. 首先启动zookeeper2. 启动kafka3. 核心代码生产者生产消息的java代码,生成要统计的单词package streaming;import java.util.Properties; import kafka.javaapi.pro
2017-11-13 10:39:40 862
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人