BigData大数据相关_SimpleSimpleSimples的博客-CSDN博客

BigData大数据相关

关注

文章平均质量分 77

关注数：文章数：37 文章阅读量：54784 文章收藏量：109

作者: SimpleSimpleSimples

一个好的程序绝对是一个很懒的程序员，反之不成立!

展开

专栏收录文章

hive默认分区数据问题

OKOK。

原创 2023-02-02 10:29:01 · 783 阅读 · 0 评论
Kafka整合java代码实现生产者与消费者

kafka的java代码实现需要用到的类：KafkaProducer：需要创建一个生产者对象，用来发送数据ProducerConfig：获取所需的一系列配置参数ProducerRecord：每条数据都要封装成一个ProducerRecord对象

原创 2022-10-05 16:27:34 · 2974 阅读 · 0 评论
Kafka常用shell脚本命令

4.3查看kafak生产者最大位移偏移量。4.2.2从最当前最新数据开始消费。>我是一只小小小鸟，怎么也飞不高。我是一只小小小鸟，怎么也飞不高。旧版本kafka启动消费参数为。吹烟袅袅升起，隔江千万里。

原创 2022-09-10 17:48:57 · 988 阅读 · 0 评论
Linux安装Kafka单机版本

主要修改kafka的监听端口，日志数据地址，zk连接地址。

原创 2022-09-10 17:04:26 · 906 阅读 · 0 评论
Elasticsearch 7 以上版本显示hits.total超过10000条设置

添加rest_total_hits_as_int=true即可。

原创 2022-07-23 17:27:15 · 2102 阅读 · 0 评论
Hbase创建外部表

创建hbase表只有一个info列族hbase(main):003:0> create 'smart_test:test_user','info'0 row(s) in 1.4330 seconds=> Hbase::Table - smart_test:test_user在列族下面添加name和age列以及列数据hbase(main):005:0> put 'smart_test:test_user',1,'info:name','赵'0 row(s) in 0.2800 secondshba

原创 2022-06-14 09:47:24 · 1991 阅读 · 0 评论
Gbase创建分区功能详细说明

1.功能说明分区表是根据一定规则，将数据库中的一张表分解成多个更小的容易管理的部分，从逻辑上看，只有一张表，但底层却是由多个物理分区组成。分区表包括普通分区表和子分区表。目前常用的分区方法有如下:RANGE 分区：一个连续范围LIST 分区：一个个的单独指定的值，可以不连续KEY 分区：支持各种数据类型，比如字符串，的hash分类方式HASH 分区：针对数字的的hash在分区的管理上目前支持创建分区、添加分区、删除分区。RANGE 分区表和 LIST 分区表支持子分区，子分区

原创 2022-04-10 15:52:02 · 5327 阅读 · 1 评论
Hive-JDBC-Kerberos认证java代码实现

hive-jdbc-kerberos认证java代码实现

原创 2022-04-09 23:27:16 · 4275 阅读 · 0 评论
Elasticsearch6.5.4版本集群安装设置密码

1.ES安装配置文件1.1主节点配置文件# ======================== Elasticsearch Configuration =========================# ---------------------------------- Cluster -----------------------------------cluster.name: GzEsCluster# ------------------------------------ Node

原创 2021-02-03 10:48:50 · 3539 阅读 · 0 评论
elasticsearch安装

1.jdk环境配置elasticsearch启动必须配置jdk1.8环境[bdp@host166 config]$ vim /etc/profileexport JAVA_HOME=/usr/java/jdk1.7.0_67-clouderaexport PATH=$JAVA_HOME/bin:$PATH2.elasticsearch配置2.1解压[bdp@host166 smartEs]$ tar -xvf elasticsearch-6.8.2.tar2.2修改配置文件[

转载 2021-08-01 16:06:44 · 281 阅读 · 0 评论
Hbase JAVA API 编程

1.hbase的API编程1.1进行kerberos认证获取连接/** * 进行kerberos认证获取连接 * @return * @throws IOException * @throws InterruptedException */ private static Connection getConnection() throws IOException, ...

原创 2020-05-04 14:33:56 · 588 阅读 · 0 评论
Hbase shell常用语句和查询过滤器集合

1.启动和停止启动[bdp@host166 ~]$ hbase shellhbase(main):002:0>停止hbase(main):002:0> quit2.常用命令2.1查看所有表hbase(main):016:0> listTABLE ...

原创 2020-05-03 01:13:40 · 2478 阅读 · 0 评论
spark的thrift-jdbcodbc-server+kerberos编程

1.官网地址http://spark.apache.org/docs/2.3.3/sql-programming-guide.html#running-the-thrift-jdbcodbc-server2.启动和连接测试2.1在找到spark的sbin目录，启动start-thriftserver.sh./start-thriftserver.sh \--name zmine...

原创 2020-04-06 10:40:37 · 536 阅读 · 0 评论
elasticsearch添加用户名和密码

1.修改elasticsearch.yml配置文件[bdp@host66 config]$vimelasticsearch.yml# ======================== Elasticsearch Configuration =========================## NOTE: Elasticsearch comes with reasonable defa...

原创 2020-03-22 00:26:41 · 7653 阅读 · 0 评论
hdfs配额Quota的增删查

1.简介HDFS允许管理员为每一个用户和每一个文件夹设置配额：命名配额和空间配额。name quota：该目录下的名字数量做硬性限制，为文件夹下的数量作出的限制,超过限制则会报错：quota exceed，最大值配额:Long.MAX_Valus。新创建的文件夹没有分配quota。space quota：设置一个文件夹的大小，如果超过则块写入会失败...

原创 2020-03-17 01:54:04 · 1841 阅读 · 0 评论
elasticsearch-sql安装和使用

1.elasticsearch-sql在线安装$./bin/elasticsearch-plugin install https://github.com/NLPchina/elasticsearch-sql/releases/download/6.2.3.0/elasticsearch-sql-6.2.3.0.zip2.elasticsearch-sql离线安装./elasticse...

原创 2020-03-10 14:34:29 · 912 阅读 · 0 评论
CDH5.8.4-hadoop2.6.0安装hbase-1.2.0

1.安装zookeeper1.1zookeeper下载地址http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.8.4.tar.gz1.2安装解压重命名:[hadoop@host151 bigdata]$ tar -zxvf zookeeper-3.4.5-cdh5.8.4.tar.gz[hadoop@host...

原创 2020-02-03 12:02:03 · 701 阅读 · 0 评论
单机spark2.1.2-kerberos安装

1.上传spark的安装包解压并，重命名[hadoop@host151 bigdata]$ tar xvf spark-2.1.1-bin-hadoop2.6.tar.gz[hadoop@host151 bigdata]$ mv spark-2.1.1-bin-hadoop2.6 spark2.修改spark-defaults.conf[hadoop@host151 conf]$ c...

转载 2020-02-02 17:48:37 · 483 阅读 · 0 评论
CDH5.8.4-hive的库表权限控制

1.查看hive的角色hive> show roles;FAILED: SemanticException The current builtin authorization in Hive is incomplete and disabled.hive> set hive.security.authorization.task.factory = org.apache.had...

原创 2020-01-29 00:04:39 · 1933 阅读 · 0 评论
hadoop-hdfs的shell常用操作命令

1.hdfs dfs、hadoop fs、hadoop dfs三个命令的区别在介绍命令之前，首先要知道hdfs dfs、hadoop fs、hadoop dfs三个命令的区别。 hadoop fs：通用的文件系统命令，针对任何系统，比如本地文件、HDFS文件、HFTP文件、S3文件系统等。 hadoop dfs：特定针对HDFS的文件系统的相关操作，但是...

原创 2020-01-28 17:28:43 · 719 阅读 · 0 评论
Spark性能调优（七）---JVM调优之调节executor堆外内存与连接等待时长

1.executor堆外内存1.1理论在实际项目中，有时候需要处理大量的数据，比如上亿、数十亿条数据，发现项目时不时地报错：shuffle file not found,executor lost,task lost,out of memory等等。之所以出现上述问题，可能是因为executor的堆外内存不足，导致executor在运行的过程中，内存溢出。后...

原创 2020-01-27 22:00:17 · 386 阅读 · 0 评论
Spark性能调优（六）---JVM调优之原理概述及降低cache操作的内存占比

1.原理概述1.1理论Spark是用Scala开发的。Spark的Scala代码调用了很多java api。Scala也是运行在JVM中的，所以Spark也是运行在JVM中的。1.2JVM可能会产生的问题内存不足——RDD的缓存、task运行定义的算子函数，可能会创建很多对象，占用大量的内存。处理不当，可能导致JVM出问题。1.3堆内存作用：存放项目中创建的对象...

原创 2020-01-27 21:04:37 · 431 阅读 · 0 评论
Spark性能调优（五）---其他(广播大变量、Kryo序列化等)性能调优策略

1.广播大变量被大量task使用的变量，使用广播。被广播的变量，在Driver中存在一个初始副本。这样，就不需要每个task都拥有一个变量的副本，节省网络传输的资源和内存的资源；每一个BlockManager有一个变量的副本，BlockManager中没有变量的时候，可以去Driver中获取，也可以从距离最近的其他BlockManager中获取。设置广播变量：s...

原创 2020-01-27 20:50:57 · 558 阅读 · 0 评论
Spark性能调优（四）---shuffle调优

1.原理概述1.1什么是shuffle 以reduceByKey为例，要把分布在集群各个节点上的数据中的同一个key对应的values集中到一块，集中到集群中同一个节点上。更严格地说，集中到同一个节点的同一个executor的task中。集中同一个key对应的values之后，数据变成<key,Iterable<value>>，...

原创 2020-01-27 20:38:16 · 476 阅读 · 0 评论
Spark性能调优（三）---在实际项目中重构RDD架构以及RDD持久化

1.为什么要重构RDD，持久化RDD1.1为什么需要重构RDD 如上图所示， RDD2和RDD3是RDD1执行相同的算子得到的RDD，是相同的RDD。对于这种需要被重复使用，差不多的RDD，可以抽取为一个共同的RDD，供后面的RDD计算时，重复使用。1.2为什么持久化RDD 如上图所示，如果没有持久化RDD，那么在获取RDD3和RDD4的时候，都...

原创 2020-01-27 20:12:02 · 272 阅读 · 0 评论
Spark性能调优（二）---在实际项目中调节并行度

1.什么是并行度并行度，其实就是指，Spark作业中，各个stage的task数量，也就代表了Spark作业在各个阶段（stage）的并行度。2.并行度过低的危害假如，在spark-submit脚本里面，给Spark作业分配了足够多的资源，比如50个executor，每个executor有10G内存，3个cpu core。基本已经达到了集群或者yarn队列的资源上限。...

原创 2020-01-27 20:05:38 · 340 阅读 · 0 评论
Spark性能调优 (一) ---在项目中分配更多的资源

1.分配更多资源性能调优的王道，就是增加和分配更多的资源，性能和速度上会得到很大提升。基本上，在一定的范围之内，增加的资源和性能的提升是成正比的。所以，性能调优的最重要的两步：第一步是增加资源，调节最优的资源配置；第二步，能够分配的资源达到能力范围的顶端后，无法再分配更多的资源，需要考虑下面几个性能调优的点。2.性能调优的点2.1分配哪些资...

转载 2020-01-27 19:59:52 · 331 阅读 · 0 评论
CDH5.8.4-Hadoop2.6.0-hive-yarn-hbase 集群上配置集成 Kerberos认证

1.Hadoop 的认证机制简单来说，没有做 kerberos 认证的 Hadoop，只要有 client 端就能够连接上。而且，通过一个有 root 的权限的内网机器，通过创建对应的Linux用户，就能够得到 Hadoop 集群上对应的权限。而实行 Kerberos 后，任意机器的任意用户都必须现在 Kerberos 的 KDC 中有记录，才允许和集群中其它的模块进行通信...

原创 2020-01-26 22:46:36 · 829 阅读 · 0 评论
Kerberos的安装和常用命令

1.Kerberos 认证协议介绍Kerberos 是一种网络认证协议，其设计目标是通过密钥系统为客户机/服务器应用程序提供强大的认证服务。使用 Kerberos 时，一个客户端需要经过三个步骤来获取服务:认证：客户端向认证服务器发送一条报文，并获取一个含时间戳的 Ticket-Granting Ticket（TGT）。授权：客户端使用 TGT 向 Ticket-Granting S...

原创 2020-01-26 22:47:11 · 5972 阅读 · 1 评论
CDH5.8.4-hadoop2.6.0安装hive

1.安装MariaDB1.1 使用yum源安装MariaDB[root@host151 ~]# yum -y install mariadb mariadb-server1.2 启动MariaDB[root@host151 ~]# systemctl start mariadb设置开机自启动[root@host151 ~]# systemctl enable mariadb...

原创 2020-01-26 22:45:13 · 531 阅读 · 0 评论
CDH5.8.4-Hadoop2.6.0安装

1.安装包下载下载对应的版本即可http://archive.cloudera.com/cdh5/cdh/5/2.基础环境配置2.1闭防火墙[root@host151 bigdata]# systemctl stop firewalld[root@host151 bigdata]# systemctl disable firewalld2.2关闭SELinux[ro...

原创 2020-01-26 22:50:06 · 543 阅读 · 0 评论
CDH5.8.4-Hadoop2.6.0安常见报错及解决方法

1.cdh2.6.0安装完成时报错启动hadoop集群时报错，如下:20/01/23 22:27:03 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable原因：导致该问题的改版本是...

原创 2020-01-26 22:45:45 · 1153 阅读 · 0 评论
Beeline、hive命令导出数据脚本

1、连接方式1.1beeline连接hive[bdp@host66 bdp]$ beelineSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.8.4-1.cdh5.8.4.p0.5/jars/slf4j-lo...

原创 2020-01-26 22:58:02 · 1012 阅读 · 0 评论
原生hadoop集群搭建

1.hadoop下载地址http://hadoop.apache.org/2.上传解压bin目录是启动脚本etc是配置文件share是一些jar包依赖引入路径为/root/myInstall/hadoop/hadoop-2.6.5/share/hadoop/hdfs/lib3.修改配置文件3.1修改hadoop-env.sh的jdk环境变量[root@ma...

原创 2020-01-26 22:47:54 · 232 阅读 · 0 评论
Hadoop的shell命令操作

1.常用sheel命令操作1.1查看文件hadoop如果没有配置全局变量，可以去bin目录下面找。[root@slave2 upload]# hadoop fs -ls /Found 1 items-rw-r--r-- 2 root supergroup 9 2018-10-02 23:29 /a.txt1.2上传文件[root@slave2 uplo...

原创 2020-01-26 22:52:51 · 184 阅读 · 0 评论
JavaAPI操作HDFS文件的增删查改

1.创建maven项目<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org...

原创 2020-01-26 22:53:09 · 316 阅读 · 0 评论
原生HA高可用Hadoop集群搭建

1.前期准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果你们公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等） /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙5.ssh免登陆6.安装JDK，配置环境变量等2.集群规划主机名...

原创 2020-01-26 22:50:42 · 208 阅读 · 0 评论

BigData大数据相关

作者: SimpleSimpleSimples

hive默认分区数据问题

Kafka整合java代码实现生产者与消费者

Kafka常用shell脚本命令

Linux安装Kafka单机版本

Elasticsearch 7 以上版本显示hits.total超过10000条设置

Hbase创建外部表

Gbase创建分区功能详细说明

Hive-JDBC-Kerberos认证java代码实现

Elasticsearch6.5.4版本集群安装设置密码

elasticsearch安装

Hbase JAVA API 编程

Hbase shell常用语句和查询过滤器集合

spark的thrift-jdbcodbc-server+kerberos编程

elasticsearch添加用户名和密码

hdfs配额Quota的增删查

elasticsearch-sql安装和使用

CDH5.8.4-hadoop2.6.0安装hbase-1.2.0

单机spark2.1.2-kerberos安装

CDH5.8.4-hive的库表权限控制

hadoop-hdfs的shell常用操作命令

Spark性能调优 （七）---JVM调优之调节executor堆外内存与连接等待时长

Spark性能调优 （六）---JVM调优之原理概述及降低cache操作的内存占比

Spark性能调优（五）---其他(广播大变量、Kryo序列化等)性能调优策略

Spark性能调优（四）---shuffle调优

Spark性能调优（三）---在实际项目中重构RDD架构以及RDD持久化

Spark性能调优（二）---在实际项目中调节并行度

Spark性能调优 (一) ---在项目中分配更多的资源

CDH5.8.4-Hadoop2.6.0-hive-yarn-hbase 集群上配置集成 Kerberos认证

Kerberos的安装和常用命令

CDH5.8.4-hadoop2.6.0安装hive

CDH5.8.4-Hadoop2.6.0安装

CDH5.8.4-Hadoop2.6.0安常见报错及解决方法

Beeline、hive命令导出数据脚本

原生hadoop集群搭建

Hadoop的shell命令操作

JavaAPI操作HDFS文件的增删查改

原生HA高可用Hadoop集群搭建

Spark性能调优（七）---JVM调优之调节executor堆外内存与连接等待时长

Spark性能调优（六）---JVM调优之原理概述及降低cache操作的内存占比