BigData大数据相关
文章平均质量分 76
SimpleSimpleSimples
一个好的程序绝对是一个很懒的程序员,反之不成立!
展开
-
hive默认分区数据问题
OKOK。原创 2023-02-02 10:29:01 · 580 阅读 · 0 评论 -
Kafka整合java代码实现生产者与消费者
kafka的java代码实现需要用到的类:KafkaProducer:需要创建一个生产者对象,用来发送数据ProducerConfig:获取所需的一系列配置参数ProducerRecord:每条数据都要封装成一个ProducerRecord对象原创 2022-10-05 16:27:34 · 2485 阅读 · 0 评论 -
Kafka常用shell脚本命令
4.3查看kafak生产者最大位移偏移量。4.2.2从最当前最新数据开始消费。>我是一只小小小鸟,怎么也飞不高。我是一只小小小鸟,怎么也飞不高。旧版本kafka启动消费参数为。吹烟袅袅升起,隔江千万里。原创 2022-09-10 17:48:57 · 809 阅读 · 0 评论 -
Linux安装Kafka单机版本
主要修改kafka的监听端口,日志数据地址,zk连接地址。原创 2022-09-10 17:04:26 · 628 阅读 · 0 评论 -
Elasticsearch 7 以上版本显示hits.total超过10000条设置
添加rest_total_hits_as_int=true即可。原创 2022-07-23 17:27:15 · 1792 阅读 · 0 评论 -
Hbase创建外部表
创建hbase表只有一个info列族hbase(main):003:0> create 'smart_test:test_user','info'0 row(s) in 1.4330 seconds=> Hbase::Table - smart_test:test_user在列族下面添加name和age列以及列数据hbase(main):005:0> put 'smart_test:test_user',1,'info:name','赵'0 row(s) in 0.2800 secondshba原创 2022-06-14 09:47:24 · 1804 阅读 · 0 评论 -
Gbase创建分区功能详细说明
1.功能说明分区表是根据一定规则,将数据库中的一张表分解成多个更小的容易管理的部分,从逻辑上看,只有一张表,但底层却是由多个物理分区组成。分区表包括普通分区表和子分区表。目前常用的分区方法有如下:RANGE 分区:一个连续范围LIST 分区:一个个的单独指定的值,可以不连续KEY 分区:支持各种数据类型,比如字符串,的hash分类方式HASH 分区:针对数字的的hash在分区的管理上目前支持创建分区、添加分区、删除分区。RANGE 分区表和 LIST 分区表支持子分区,子分区原创 2022-04-10 15:52:02 · 4215 阅读 · 1 评论 -
Hive-JDBC-Kerberos认证java代码实现
hive-jdbc-kerberos认证java代码实现原创 2022-04-09 23:27:16 · 4068 阅读 · 0 评论 -
Elasticsearch6.5.4版本集群安装设置密码
1.ES安装配置文件1.1主节点配置文件# ======================== Elasticsearch Configuration =========================# ---------------------------------- Cluster -----------------------------------cluster.name: GzEsCluster# ------------------------------------ Node原创 2021-02-03 10:48:50 · 3253 阅读 · 0 评论 -
elasticsearch安装
1.jdk环境配置elasticsearch启动必须配置jdk1.8环境[bdp@host166 config]$ vim /etc/profileexport JAVA_HOME=/usr/java/jdk1.7.0_67-clouderaexport PATH=$JAVA_HOME/bin:$PATH2.elasticsearch配置2.1解压[bdp@host166 smartEs]$ tar -xvf elasticsearch-6.8.2.tar2.2修改配置文件[转载 2021-08-01 16:06:44 · 192 阅读 · 0 评论 -
Hbase JAVA API 编程
1.hbase的API编程1.1进行kerberos认证获取连接/** * 进行kerberos认证获取连接 * @return * @throws IOException * @throws InterruptedException */ private static Connection getConnection() throws IOException, ...原创 2020-05-04 14:33:56 · 488 阅读 · 0 评论 -
Hbase shell常用语句和查询过滤器集合
1.启动和停止启动[bdp@host166 ~]$ hbase shellhbase(main):002:0>停止hbase(main):002:0> quit2.常用命令2.1查看所有表hbase(main):016:0> listTABLE ...原创 2020-05-03 01:13:40 · 2345 阅读 · 0 评论 -
spark的thrift-jdbcodbc-server+kerberos编程
1.官网地址http://spark.apache.org/docs/2.3.3/sql-programming-guide.html#running-the-thrift-jdbcodbc-server2.启动和连接测试2.1在找到spark的sbin目录,启动start-thriftserver.sh./start-thriftserver.sh \--name zmine...原创 2020-04-06 10:40:37 · 431 阅读 · 0 评论 -
elasticsearch添加用户名和密码
1.修改elasticsearch.yml配置文件[bdp@host66 config]$vimelasticsearch.yml# ======================== Elasticsearch Configuration =========================## NOTE: Elasticsearch comes with reasonable defa...原创 2020-03-22 00:26:41 · 7443 阅读 · 0 评论 -
hdfs配额Quota的增删查
1.简介HDFS允许管理员为每一个用户和每一个文件夹设置配额:命名配额和空间配额。name quota: 该目录下的名字数量做硬性限制,为文件夹下的数量作出的限制,超过限制则会报错:quota exceed,最大值配额:Long.MAX_Valus。新创建的文件夹没有分配quota。space quota: 设置一个文件夹的大小,如果超过则块写入会失败...原创 2020-03-17 01:54:04 · 1477 阅读 · 0 评论 -
elasticsearch-sql安装和使用
1.elasticsearch-sql在线安装$./bin/elasticsearch-plugin install https://github.com/NLPchina/elasticsearch-sql/releases/download/6.2.3.0/elasticsearch-sql-6.2.3.0.zip2.elasticsearch-sql离线安装./elasticse...原创 2020-03-10 14:34:29 · 790 阅读 · 0 评论 -
CDH5.8.4-hadoop2.6.0安装hbase-1.2.0
1.安装zookeeper1.1zookeeper下载地址http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.8.4.tar.gz1.2安装解压重命名:[hadoop@host151 bigdata]$ tar -zxvf zookeeper-3.4.5-cdh5.8.4.tar.gz[hadoop@host...原创 2020-02-03 12:02:03 · 609 阅读 · 0 评论 -
单机spark2.1.2-kerberos安装
1.上传spark的安装包解压并,重命名[hadoop@host151 bigdata]$ tar xvf spark-2.1.1-bin-hadoop2.6.tar.gz[hadoop@host151 bigdata]$ mv spark-2.1.1-bin-hadoop2.6 spark2.修改spark-defaults.conf[hadoop@host151 conf]$ c...转载 2020-02-02 17:48:37 · 354 阅读 · 0 评论 -
CDH5.8.4-hive的库表权限控制
1.查看hive的角色hive> show roles;FAILED: SemanticException The current builtin authorization in Hive is incomplete and disabled.hive> set hive.security.authorization.task.factory = org.apache.had...原创 2020-01-29 00:04:39 · 1742 阅读 · 0 评论 -
hadoop-hdfs的shell常用操作命令
1.hdfs dfs、hadoop fs、hadoop dfs三个命令的区别 在介绍命令之前,首先要知道hdfs dfs、hadoop fs、hadoop dfs三个命令的区别。 hadoop fs:通用的文件系统命令,针对任何系统,比如本地文件、HDFS文件、HFTP文件、S3文件系统等。 hadoop dfs:特定针对HDFS的文件系统的相关操作,但是...原创 2020-01-28 17:28:43 · 574 阅读 · 0 评论 -
Spark性能调优 (七)---JVM调优之调节executor堆外内存与连接等待时长
1.executor堆外内存1.1理论 在实际项目中,有时候需要处理大量的数据,比如上亿、数十亿条数据,发现项目时不时地报错:shuffle file not found,executor lost,task lost,out of memory等等。 之所以出现上述问题,可能是因为executor的堆外内存不足,导致executor在运行的过程中,内存溢出。后...原创 2020-01-27 22:00:17 · 271 阅读 · 0 评论 -
Spark性能调优 (六)---JVM调优之原理概述及降低cache操作的内存占比
1.原理概述1.1理论Spark是用Scala开发的。Spark的Scala代码调用了很多java api。Scala也是运行在JVM中的,所以Spark也是运行在JVM中的。1.2JVM可能会产生的问题 内存不足——RDD的缓存、task运行定义的算子函数,可能会创建很多对象,占用大量的内存。处理不当,可能导致JVM出问题。1.3堆内存作用:存放项目中创建的对象...原创 2020-01-27 21:04:37 · 343 阅读 · 0 评论 -
Spark性能调优(五)---其他(广播大变量、Kryo序列化等)性能调优策略
1.广播大变量 被大量task使用的变量,使用广播。被广播的变量,在Driver中存在一个初始副本。这样,就不需要每个task都拥有一个变量的副本,节省网络传输的资源和内存的资源;每一个BlockManager有一个变量的副本,BlockManager中没有变量的时候,可以去Driver中获取,也可以从距离最近的其他BlockManager中获取。 设置广播变量:s...原创 2020-01-27 20:50:57 · 414 阅读 · 0 评论 -
Spark性能调优(四)---shuffle调优
1.原理概述1.1什么是shuffle 以reduceByKey为例,要把分布在集群各个节点上的数据中的同一个key对应的values集中到一块,集中到集群中同一个节点上。更严格地说,集中到同一个节点的同一个executor的task中。 集中同一个key对应的values之后,数据变成<key,Iterable<value>>,...原创 2020-01-27 20:38:16 · 344 阅读 · 0 评论 -
Spark性能调优(三)---在实际项目中重构RDD架构以及RDD持久化
1.为什么要重构RDD,持久化RDD1.1为什么需要重构RDD 如上图所示, RDD2和RDD3是RDD1执行相同的算子得到的RDD,是相同的RDD。对于这种需要被重复使用,差不多的RDD,可以抽取为一个共同的RDD,供后面的RDD计算时,重复使用。1.2为什么持久化RDD 如上图所示,如果没有持久化RDD,那么在获取RDD3和RDD4的时候,都...原创 2020-01-27 20:12:02 · 200 阅读 · 0 评论 -
Spark性能调优(二)---在实际项目中调节并行度
1.什么是并行度并行度,其实就是指,Spark作业中 ,各个stage的task数量,也就代表了Spark作业在各个阶段(stage)的并行度。2.并行度过低的危害 假如,在spark-submit脚本里面,给Spark作业分配了足够多的资源,比如50个executor,每个executor有10G内存,3个cpu core。基本已经达到了集群或者yarn队列的资源上限。...原创 2020-01-27 20:05:38 · 239 阅读 · 0 评论 -
Spark性能调优 (一) ---在项目中分配更多的资源
1.分配更多资源 性能调优的王道,就是增加和分配更多的资源,性能和速度上会得到很大提升。基本上,在一定的范围之内,增加的资源和性能的提升是成正比的。所以,性能调优的最重要的两步: 第一步是增加资源,调节最优的资源配置; 第二步,能够分配的资源达到能力范围的顶端后,无法再分配更多的资源,需要考虑下面几个性能调优的点。2.性能调优的点2.1分配哪些资...转载 2020-01-27 19:59:52 · 265 阅读 · 0 评论 -
CDH5.8.4-Hadoop2.6.0-hive-yarn-hbase 集群上配置集成 Kerberos认证
1.Hadoop 的认证机制 简单来说,没有做 kerberos 认证的 Hadoop,只要有 client 端就能够连接上。而且,通过一个有 root 的权限的内网机器,通过创建对应的Linux用户,就能够得到 Hadoop 集群上对应的权限。而实行 Kerberos 后,任意机器的任意用户都必须现在 Kerberos 的 KDC 中有记录,才允许和集群中其它的模块进行通信...原创 2020-01-26 22:46:36 · 650 阅读 · 0 评论 -
Kerberos的安装和常用命令
1.Kerberos 认证协议介绍Kerberos 是一种网络认证协议,其设计目标是通过密钥系统为客户机/服务器应用程序提供强大的认证服务。使用 Kerberos 时,一个客户端需要经过三个步骤来获取服务:认证:客户端向认证服务器发送一条报文,并获取一个含时间戳的 Ticket-Granting Ticket(TGT)。 授权:客户端使用 TGT 向 Ticket-Granting S...原创 2020-01-26 22:47:11 · 5470 阅读 · 1 评论 -
CDH5.8.4-hadoop2.6.0安装hive
1.安装MariaDB1.1 使用yum源安装MariaDB[root@host151 ~]# yum -y install mariadb mariadb-server1.2 启动MariaDB[root@host151 ~]# systemctl start mariadb设置开机自启动[root@host151 ~]# systemctl enable mariadb...原创 2020-01-26 22:45:13 · 430 阅读 · 0 评论 -
CDH5.8.4-Hadoop2.6.0安装
1.安装包下载下载对应的版本即可http://archive.cloudera.com/cdh5/cdh/5/2.基础环境配置2.1闭防火墙[root@host151 bigdata]# systemctl stop firewalld[root@host151 bigdata]# systemctl disable firewalld2.2关闭SELinux[ro...原创 2020-01-26 22:50:06 · 450 阅读 · 0 评论 -
CDH5.8.4-Hadoop2.6.0安常见报错及解决方法
1.cdh2.6.0安装完成时报错启动hadoop集群时报错,如下:20/01/23 22:27:03 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable原因:导致该问题的改版本是...原创 2020-01-26 22:45:45 · 1005 阅读 · 0 评论 -
Beeline、hive命令导出数据脚本
1、连接方式1.1beeline连接hive[bdp@host66 bdp]$ beelineSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.8.4-1.cdh5.8.4.p0.5/jars/slf4j-lo...原创 2020-01-26 22:58:02 · 840 阅读 · 0 评论 -
原生hadoop集群搭建
1.hadoop下载地址http://hadoop.apache.org/2.上传解压bin目录是启动脚本etc是配置文件share是一些jar包依赖引入路径为/root/myInstall/hadoop/hadoop-2.6.5/share/hadoop/hdfs/lib3.修改配置文件3.1修改hadoop-env.sh的jdk环境变量[root@ma...原创 2020-01-26 22:47:54 · 170 阅读 · 0 评论 -
Hadoop的shell命令操作
1.常用sheel命令操作1.1查看文件hadoop如果没有配置全局变量,可以去bin目录下面找。[root@slave2 upload]# hadoop fs -ls /Found 1 items-rw-r--r-- 2 root supergroup 9 2018-10-02 23:29 /a.txt1.2上传文件[root@slave2 uplo...原创 2020-01-26 22:52:51 · 129 阅读 · 0 评论 -
JavaAPI操作HDFS文件的增删查改
1.创建maven项目<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org...原创 2020-01-26 22:53:09 · 240 阅读 · 0 评论 -
原生HA高可用Hadoop集群搭建
1.前期准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等2.集群规划 主机名...原创 2020-01-26 22:50:42 · 153 阅读 · 0 评论