![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 56
weixin_38613375
这个作者很懒,什么都没留下…
展开
-
spark集群版配置
因为spark是内存计算大数据分析引擎,仅仅只涉及到数据的计算,没有涉及到数据的存储,所有在安装spark集群时,必须先安装HDFS等分布式文件存储系统。本配置的规模为三台机器 ,一个master(主节点),主节点配置在hadoop1机器上,两个从节点(worker),从节点配置分布配置在hadoop2、hadoop3上,所有的操作先在一台机器上操作安装scala(所有操作都先在一台虚拟机上安...原创 2019-04-10 12:56:38 · 138 阅读 · 0 评论 -
spark单机版安装
安装scala上传scala安装包root@hadoop1 usr]# mkdir scalaroot@hadoop1 scala]# scala-2.10.5.tgz解压[root@hadoop1 scala]# tar -zxvf scala-2.10.5.tgz配置scala环境变量[root@hadoop1 scala]#vi /etc/profile...原创 2019-04-09 20:22:07 · 672 阅读 · 0 评论 -
flume整合kafka
准备条件:安装好zookeeper集群、flume集群和kafka集群,并且先启动zookeeper集群。配置flume-kafka.conf文件[root@hadoop1 usr]# cd /usr/flume/apache-flume-1.8.0-bin/conf[root@hadoop1 conf]#vi flume-kafka.conf监听文件夹a1.sources = r1...原创 2019-04-27 11:29:05 · 199 阅读 · 0 评论 -
sqoop数据搬迁工具
sqoop简介sqoop是一个数据交换工具,最常用的两个方法是导入导出;导入导出的参照物是hadoop,向hadoop导数据就是导入。前提条件:必须保证hive、hadoop集群正常启动安装上传安装包[root@localhost usr]# mkdir sqoop[root@localhost usr]# cd sqoop[root@localhost sqoop]# sqoo...原创 2019-04-28 13:18:08 · 123 阅读 · 0 评论 -
flume简介
flume概述flume是一个高可用、高可靠的、分布式的海量日志采集、聚合和传输的软件。flume的核心是把数据从数据源(source)收集过来,再发送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地后,flume再删除自己的缓存的数据。flume系统的核心角色agentagent本身是一个Ja...原创 2019-04-25 10:10:26 · 506 阅读 · 0 评论 -
flume集群版配置
准备条件:提前安装好HDFS集群本配置为三台机器,所有的操作都在一台机器上操作。安装flume(所有操作先在一台集群上操作)上传flume安装包[root@hadoop1 usr]# mkdir flume[root@hadoop1 flume]# apache-flume-1.8.0-bin.tar.gz[root@hadoop1 flume]# tar -zxvf apache...原创 2019-04-24 11:19:24 · 688 阅读 · 0 评论 -
fiume的负载均衡
准备条件:提前安装好HDFS集群和flume集群负载均衡(load-balance)的目的负载均衡解决是解决一台机器(一个进程)无法解决所有请求而产生的一种算法(即使用多个fluem同时来接受一个较大的flume)配置文件(两级flume).创建"exec-avro.conf"(第一级配置)[root@hadoop1 conf]# vi exec-avro.conf#指定A...原创 2019-04-24 11:58:13 · 178 阅读 · 0 评论 -
fiume的容错机制
准备条件:提前安装好HDFS集群和flume集群flume的容错(failover)容错是指在采集日志时,配置多个fluem安装优先级的大小(只有一台flume采集,其他的flume相当于替补),分顺序的采集日志。配置文件创建"exec-avro.conf"[root@hadoop1 conf]# vi exec-avro.conf#指定Agent的组件名称a1.sourc...原创 2019-04-24 18:06:04 · 318 阅读 · 0 评论 -
RDD、DataFrame和Dataset的关系
RDD、DataFrame和Dataset的关系DataFrame是特殊的RDD(他相当于RDD+schema,即RDD+表信息),可以将他看成数据库中的一张数据表,但是只知道这个"表"中的各个字段,不知道各个字段的数据类型。Dataset是DataFrame的父类,当Dataset中存储Row(Row是一个类型,跟Car、Person这些的类型一样,所有的表结构信息我都用Row来表示)时,...原创 2019-04-24 18:23:02 · 2681 阅读 · 1 评论 -
Spark Shell和spark集群的节点
Spark ShellSpark Shell是一个交互式的命令行,里面可以写spark程序,方便学习和测试,他也是一个客户端,用于提交spark应用程序。他有两种运行机制,本地运行和集群运行。本地运行[root@hadoop1 spark-2.1.1-bin-hadoop2.7]#bin/spark-shell注:没有指明master的地址,所以是spark的local模式运行的,模...原创 2019-04-24 22:47:24 · 863 阅读 · 0 评论 -
spark on yarn
配置安装安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,该spark将作为YARN的客户端用于提交任务[root@hadoop1 conf]# vi spark-env.sh#追加内容export JAVA_HOME=/u...原创 2019-04-25 10:09:43 · 78 阅读 · 0 评论 -
kafka的常用操作
创建topic[root@hadoop1 kafka_2.12-1.1.0]# ./bin/kafka-topics.sh --create --zookeeper hadoop1:2181,hadoop2:2181,hadoop3:2181 --replication-factor 3 --partitions 3 --topic test注:"test"是topic的名字;"partit...原创 2019-04-25 10:36:06 · 242 阅读 · 0 评论 -
kafka集群搭建
准备条件:提前安装好zookeeper集群,本配置为三台机器(hadoop1、hadoop2、hadoop3),所有操作先在一台机器上操作。上传并解压[root@hadoop1 usr]# mkdir kafka[root@hadoop1 kafka]# tar -zxvf kafka/kafka_2.12-1.1.0.tar修改配置文件(只修改"server.properties"...原创 2019-04-25 10:37:30 · 2237 阅读 · 0 评论 -
java代码操作kafka
架包依赖</dependency> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> ...原创 2019-04-25 10:40:52 · 684 阅读 · 0 评论 -
shell的数组、流程控制和函数
shell数组1.bash支持一维数组(不支持多维数组),并且没有限定数组的大小(即数据的长度是可变的),并且一个数组中可以存放不同类型的数据。类似于 C 语言,数组元素的下标由 0 开始编号。获取数组中的元素要利用下标,下标可以是整数或算术表达式,其值应大于或等于 0。2.在 Shell 中,用括号来表示数组,数组元素用"空格"符号分割开。定义数组的一般形式为:数组名=(值1 值2 …...原创 2019-04-25 12:53:29 · 90 阅读 · 0 评论 -
yarn的工作流程
1.客户端(client) 向ResourceManager提交应用程序,其中包括启动该应用的 ApplicationMaster 的必须信息,例如 ApplicationMaster 程序、启动 ApplicationMaster 的命令、用户程序等。2.ResourceManager 启动一个容器(container) 用于运行 ApplicationMaster。启动中的 Appli...原创 2019-05-07 17:41:48 · 1595 阅读 · 0 评论 -
hive的数据操作
加载数据使用"-put"加载数据hadoop fs -put 文件 /user/hive/warehouse/数据库名.db/表名 (将Linux本地中的数据加载到hive中)注:(只适用内部表和外部表)使用"-mv|-cp"加载数据(只适用内部表和外部表)hadoop fs -mv/-cp /文件路径 /user/hive/warehouse/数据库名.db/表名 (将hado...原创 2019-04-09 20:06:58 · 188 阅读 · 0 评论 -
HDFS文件上传与下载原理
HDFS上传文件1客户端向HDFS(NameNode)文件系统发送文件上传请求。2.NameNode检索HDFS文件系统是否存在与要上传文件相同的文件,如果存在,阻止该文件上传;如果不存在,允许该文件上传。3.客户端上传文件,NameNode会找出空闲的DataNode节点存储文件(默认备份为3份,所以NameNode会找出3个空闲的DataNode节点),NameNode的存储策略,本地...原创 2019-04-12 11:19:05 · 1134 阅读 · 0 评论 -
免密登录(ssh)
生成“.ssh”目录[root@localhost ~]# ssh localhost注:localhost为虚拟机的ip映射,此过程需要输入一次密码进入“.ssh”目录 [root@localhost ~]# cd ~/.ssh生成私钥(id_rsa)和公钥(id_rsa.pub)[root@localhost ssh]#ssh-keygen -t rsa注:输入此命令,然...原创 2019-04-10 13:09:45 · 450 阅读 · 0 评论 -
Spark-RDD常用算子
算子的分类spark的rdd的算子可以分为两大类:Transformation算子和 Action算子,其中Transformation算子是惰性的,只有rdd触发 Action算子时,才会执行Transformation算子;并且每个Transformation算子都会生成一个Task,每个Action算子都会生成一个job。Transformation算子parallelize:将...原创 2019-04-10 13:35:19 · 772 阅读 · 0 评论 -
DAG-有向无环图
DAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的Transformation转换就形成了DAG。在spark中,RDD与RDD之间的转换关系称之为血缘;根据不同的Transformation算子,可以将血缘分为两类,窄依赖和宽依赖。DAG是有边界的:开始(通过SparkContext创建的RDD),结束(触发Action,调用run Job就是...原创 2019-04-10 13:42:20 · 2391 阅读 · 0 评论 -
spark数据源
数据源分类spark中支持多种数据源(jdbc、parquet、csv、json等),所以在可以读取多种类型的数据源。csv格式的数据源,他的默认分隔符是",",可以使用Excel来打开,但是会出现数据乱码(因为CSV中不同操作系统的字符编码不一致);可以使用一下方式解决:https://jingyan.baidu.com/article/4dc408484776fbc8d846f168.h...原创 2019-04-10 13:48:03 · 1053 阅读 · 0 评论 -
spark自定义函数
自定义函数的分类UDF:输入一参数,返回一个参数UDTF:输入一参数,返回多个参数(hive中存在,sparkSQL中没有,因为spark中用flatMap即可实现该功能)UDAF 输入多个参数,返回一个参数 aggregate(聚合) count、sum这些是sparkSQL自带的聚合函数,但是复杂的业务,要自己定义。spark自定义函数的步骤定义一个类,该类必须继承User...原创 2019-04-10 13:58:36 · 4213 阅读 · 0 评论 -
hive的简单操作
hive简介 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据表,并提供类SQL查询功能(类SQL的本质就是将SQL转换成MapReduce程序);主要用于做离线数据分析,比直接用MapReduce程序开发效率更高。hive与hadoop的关系 hive利用HDFS存储数据,利用MapReduce查询分析数据hive的元数据(hive与HDFS...原创 2019-04-06 20:53:03 · 231 阅读 · 0 评论 -
hadoop单机版安装
注:安装hadoop时,hadoop的安装包需要在jdk下编译,否则安装hadoop时,无法与jdk兼容。这个链接是jdk1.8.版本环境下编译好的hadoop-2.7.3.tar.gz安装包。 链接:https://pan.baidu.com/s/16fSLciWuLExV5p6zaPJcgg 提取码:16ye 安装jdk与hadoop[root@localhost usr]# mkd...原创 2019-04-10 19:30:09 · 109 阅读 · 0 评论 -
hive常用命令
hive的语法与MySQL、Oracle的语法类似,所以可以将MySQL、Oracle的语法在hive中使用,自己要勇于尝试。查看hive中的数据库show databases;创建数据库create database '数据库名';查看hive数据库中的表show tables;创建数据表create table ‘表名’;删除数据库drop database ...原创 2019-04-07 12:12:47 · 82 阅读 · 0 评论 -
hive的安装
准备条件安装好hdfs集群安装MySQL数据库,并且在MySQL中创建"hive"数据库(数据库名必须为"hive",默认情况下hive会将元数据存储在"hive"数据库中)安装hive[root@hadoop1 usr]# mkdir hive[root@hadoop1 hive]# apache-hive-2.3.3-bin.tar[root@hadoop1 hive]# ta...原创 2019-04-07 19:14:57 · 147 阅读 · 0 评论 -
hive内置函数
hive函数的查看显示当前会话有多少函数可用show functions;显示函数的描述信息desc function '函数名';聚合函数求和sum()计数count()求平均直avg()去重distinct()求最大值max()求最小值min()注:聚合函数处理的数据粒度为多条记录,并且聚合函数的结果是唯一...原创 2019-04-08 00:08:02 · 234 阅读 · 0 评论 -
MySQL安装
安装wget命令[root@localhost ~]# yum -y install wget下载mysql的repo源[root@localhost ~]# cd /usr[root@localhost usr]# mkdir mysql[root@localhost usr]# cd mysql[root@localhost mysql]# wget http://repo.my...原创 2019-04-08 09:58:17 · 72 阅读 · 0 评论 -
hive中常用的关键字
hive数据表13.1.使用"-put"加载数据(只适用内部表和外部表)hadoop fs -put 文件 /user/hive/warehouse/数据库名.db/表名 (将Linux本地中的数据加载到hive中)13.2.使用"-mv|-cp"加载数据(只适用内部表和外部表)hadoop fs -mv/-cp /文件路径 /user/hive/warehouse/数据库名.db...原创 2019-04-08 11:47:38 · 10366 阅读 · 0 评论 -
zookeeper集群版配置
注:zookeeper的运行依赖于jdk,所有在安装zookeeper集群时,要提前安装好jdk。此配置的机器为三台机器(hadoop1、hadoop2、hadoop3),所有的操作先在一台虚拟机操作)。安装jdk上传jdk安装包[root@hadoop1 java]#[root@hadoop1 java]# jdk-8u141-linux-x64.tar.gz解压jdk安装包...原创 2019-04-12 10:48:45 · 89 阅读 · 0 评论 -
hadoop的高可用(HA)
>注:安装hadoop时,hadoop的安装包需要在jdk下编译,否则安装hadoop时,无法与jdk兼容。>此配置为HDFS的HA和YARN的HA,规模为三台机器;并且所有操作先在一台机器上操作。安装zookeeper集群修改主机名和ip映射[root@localhost ~]# vi /etc/hosts <!--虚拟机IP 映射名-->192....原创 2019-04-12 11:03:33 · 202 阅读 · 0 评论 -
Hadoop集群版搭建
注:安装hadoop时,hadoop的安装包需要在jdk下编译,否则安装hadoop时,无法与jdk兼容。这个链接是jdk1.8.版本环境下编译好的hadoop-2.7.3.tar.gz安装包。 链接:https://pan.baidu.com/s/16fSLciWuLExV5p6zaPJcgg 提取码:16ye 本配置为三台机器,所有操作先在一台机器上操作修改主机名和ip映射[r...原创 2019-04-12 11:11:08 · 83 阅读 · 0 评论 -
hadoop常用指令
将本地文件存储至hadoophadoop fs -put [本地目录] [hadoop目录]查看指定目录下内容:hadoop fs -ls [文件目录]打开某个已存在的文件:hadoop fs -cat [file_path]将hadoop上某个文件down至本地已有目录下:hadoop fs -get [文件目录] [本地目录]删除hadoop上指定文...原创 2019-04-12 11:14:47 · 256 阅读 · 0 评论 -
spark的工作流程
1.通过"spark-submit"脚本将代码提交到集群中运行。2.在初始化sparkContext上下文时,spark会创建"DAGScheduler""TeskScheduler"两个对象。3.创建好这两个对象后,客户端(Driver)会向Master节点发送一个Application任务。4.Master在接受到Application任务后,会进行资源调度。5.Ma...原创 2019-05-07 18:15:07 · 253 阅读 · 0 评论