自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Python 2.函数的基本介绍

Python 2.函数的基本介绍

2022-03-14 09:39:03 178

原创 Python 1.变量和赋值

Python 1.变量与赋值

2022-03-14 09:34:34 1737

原创 Spark on Hive 实战

将hive_home/conf下面的hive-site.xml拷贝到spark_home/conf下面 将hadoop_home/etc/hadoop下面的hdfs-site.xml和core-site.xml拷贝到spark_home/conf下面 在拷贝到spark_home/conf所在节点上以local模式启动spark-sql 如果hive的metastore是mysql数据库,需要将mysql驱动放到spark_home/jars目录下面 开发环境:在项目中创建文件夹conf,将上...

2021-01-21 12:50:14 1348

原创 Hive实战

参考:https://cwiki.apache.org/confluence/display/Hive/Design Hive元数据部署模式 Hive的元数据主要存储Hive的表和分区等信息。 嵌入式模式 嵌入式模式通常只用于测试环境。元数据的存储采用Derby数据库,包括数据库和元数据服务都嵌入在HiveServer进程中。这种方式比较便捷,配置少,但是同时只能支持一个用户,因此常用于测试,不适合生产环境。 Hive安装(嵌入式) 说.

2021-01-21 07:21:18 362

原创 Hadoop2.x完全分布式+HA环境搭建及测试验证

前置条件:[1]已制作好CentOS虚拟机模板。[2] 该模板安装好Oracle JDK,且JAVA_HOME值为/usr/java/jdk1.8.0_171-amd64/jre。CentOS模板安装可参考我的博客:https://blog.csdn.net/gobitan/article/details/80993354准备三台虚拟机[1] 搭建完全Hadoop分布式+HA最少需要三台服务器,假设三台服务器的IP地址如下:192.168.159.200 hadoop01...

2021-01-21 07:15:12 309

原创 CentOS7_64 位操作系统模板搭建

说明:鉴于平时使用虚拟机做各种测试的频率非常高,难免有很多重复工作。这里以 CentOS-7-x86_64-Minimal-1804 安装为基础安装了虚拟机,然后再做了如下配置与安装。将该虚拟机做成模板,可以直接拷贝使用,很方便。安装所需软件准备VMware-player-7.1.0下载地址:链接:https://pan.baidu.com/s/1RmAkJPZl2qhKN62JGkpcGg密码:lfs5CentOS7安装 ImageISO 下载地址:http://c...

2021-01-21 07:08:26 144

原创 HDFS集群HA的切换测试

[1]先确认HDFS的主namenode在哪一台机器上[root@hadoop01 ~]# hdfs haadmin -getServiceState nn1active[root@hadoop01 ~]# hdfs haadmin -getServiceState nn2standby通过上面的命令,确认主NameNode在hadoop01上面。[2]通过jps找到主NameNode的进程id[root@hadoop01 ~]# jps1963 NameNode[3..

2021-01-20 21:21:00 328

原创 如何从零启动HA集群?

依次在三台机器上启动zookeeper[root@hadoop01 ~]# zkServer.sh start[root@hadoop02 ~]# zkServer.sh start[root@hadoop03 ~]# zkServer.sh start[root@hadoop01 ~]# start-dfs.shstart-dfs.sh会依次启动两个namenode,三个datanode,三个JournalNode和两个zkfc。[root@hadoop01 ~]# mr-j.

2021-01-17 07:58:00 183

原创 spark共享变量

通常,Spark程序计算的时候,我们传递的函数是在远程集群节点上执行的,在函数中使用的所有变量副本会传递到远程节点,计算任务使用变量副本进行计算。这些变量被复制到每台机器上,对远程机器上的变量的更新不会返回driver程序。...

2021-01-16 23:26:48 117

原创 Spark编程核心抽象—RDD

什么是RDD?RDD 是Resilient Distributed Dataset的简称。它是Apache Spark的基本数据结构。它是一个不可变的对象集合,在集群的不同节点上进行计算。Resilient:即在RDD lineage(DAG)的帮助下具有容错能力,能够重新计算由于节点故障而丢失或损坏的数据分区。 Distributed:数据分布在多个节点上。 Dataset:表示所操作的数据集。用户可以通过JDBC从外部加载数据集,数据集可以是JSON文件、CSV文件、文本文件或数据库RDD的

2021-01-16 22:40:49 231

原创 SparkCore_spark安装启动测试

安装运行Spark Spark本身是用Scala编写的,并在Java虚拟机(JVM)上运行,因此在您的笔记本或集群上运行Spark,您所需要的只是安装Java环境。如果您想要使用Python API,您还需要一个Python解释器(版本2.7或更高版本)。如果你想使用R,你需要在你的机器上安装R语言环境。建议开始使用Spark: 在您的笔记本电脑上下载并安装Apache Spark。 下载Spark到本地 如果您想在本地下载并运行Spark,第一步是确保您的机器上安装了Ja..

2021-01-16 22:33:31 450

原创 布隆过滤booleanFilter

布隆过滤器boolean Filter

2021-01-14 13:35:03 134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除