大数据学习
hadoop、flume、sqoop、kafka等相关组件的学习。
有菜的马哥
现在的努力只是为了以后有更多的选择。
展开
-
配置docker加速器为阿里
一、添加阿里云镜像阿里云网站在网站上一步到位,完成注册,进行实名认证。1.修改/etc/docker/daemon.json文件,注意:daemon.json文件是没有的,自己创建即可。2.将上图红框中的内容编辑在daemon.json文件中,3.按照上图操作,执行命令:systemctl daemon-reloadsystemctl restart docker4.进行验证...原创 2020-02-21 16:48:18 · 380 阅读 · 0 评论 -
Zookeeper的配置安装:
Zookeeper的安装:1.关闭防火墙: systemctl stop firewalld.service2.下载解压zookeeper3.4.10.tar.gz,并将文件地址添加到环境变量。命令:tar -zxvf zookeeper安装包配置环境变量如下:export ZOOKEEPER_HOME=/usr/zookeeper/zookeeper-3.4.10 PA...原创 2019-10-24 14:22:02 · 186 阅读 · 0 评论 -
Hbase安装
1.首先在Linux本地,新建/data/hbase1目录,用于存放所需文件。mkdir -p /data/hbase1切换目录到/data/hbase1下,使用wget命令,下载HBase所需安装包hbase-1.0.0-cdh5.4.5.tar.gz。cd /data/hbase1wget http://192.168.1.100:60000/allfiles/hbase1/hbase...原创 2019-11-03 14:06:10 · 187 阅读 · 0 评论 -
安装配置kafka
安装配置kafka1.首先在Linux本地,新建/data/kafka1目录,用于存放实验所需文件。mkdir -p /data/kafka1将安装包下载到该目录下2.安装Scala。切换到/data/kafka1目录下,将Scala安装包scala-2.10.4.tgz解压到/apps目录下,并将解压后的目录,重命名为scala。mv /apps/scala-2.10.4/ /ap...原创 2019-11-06 17:16:52 · 151 阅读 · 0 评论 -
Flume Agent配置
Flume Agent配置Flume介绍Flume的Agent主要是由三个重要的组件组成:分别为Source、Channel、Sink。(1)Source:完成对日志数据的收集,分成transtion和event导入到Channel之中。(2)Channel:主要提供一个队列的功能,对Source提供的数据进行简单的缓存。(3)Sink:取出Channel中的数据,相应的存储到文件系统,...原创 2019-11-08 11:10:27 · 2191 阅读 · 0 评论 -
sqoop增量数据导入
sqoop增量导入要求1.使用Sqoop按字段增长将Mysql中数据抽取到HDFS2.使用Sqoop按时间增长将Mysql中数据抽取到HDFS步骤:1.首先检查Hadoop相关进程,是否已经启动。若未启动,切换到/apps/hadoop/sbin目录下,启动Hadoop。jps cd /apps/hadoop/sbin ./start-all.sh 2.开启mysql服务。...原创 2019-11-10 14:12:54 · 436 阅读 · 0 评论 -
sqoop综合案例
sqoop综合案例1.检查Hadoop进程是否已经启动cd /apps/hadoop/sbin ./start-all.sh jps 2.首先在Linux本地,新建data/case4目录,用于存放所需文件。mkdir -p /data/case4 在Linux中切换到data/case4目录下,下载文本文件order_items。首先在HDFS上新建/mycase4/目...原创 2019-11-10 14:37:58 · 739 阅读 · 0 评论 -
Sqoop数据导入与导出
简单介绍在导入开始之前,Sqoop使用JDBC来检查将要导入的表。他检索出表中所有的列以及列的SQL数据类型。这些SQL类型(varchar、integer)被映射到Java数据类型(String、Integer等),在MapReduce应用中将使用这些对应的Java类型来保存字段的值。Sqoop的代码生成器使用这些信息来创建对应表的类,用于保存从表中抽取的记录。Sqoop启动的MapReduc...原创 2019-11-11 22:46:13 · 1177 阅读 · 0 评论 -
Sqoop安装
1.Sqoop介绍Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(Mysql、Oracle…)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了Import和Export这两个工具。Sqoop impor...原创 2019-11-10 10:20:41 · 244 阅读 · 0 评论 -
Hive数据仓库的搭建
Hive数据仓库的搭建实验中我们选用hive的远程模式,slave2安装mysql server用于存放元数据,slave1作 为hive,server作为thrift 服务器,master作为client一、开启zookeeper二、开启hadoop三、Slave2上安装mysql server1.安装MySQL:yum -y install mysql-community-serv...原创 2019-10-25 09:35:06 · 1017 阅读 · 0 评论 -
Mapreduce的wordcount操作
一、启动hadoopcd /apps/hadoop/sbin ./start-all.sh 二、在linux上,创建一个目录/data/mapreduce1mkdir -p /data/mapreduce1三、切换到/data/mapreduce1目录下,下载文本文件四、在该目录下,下载依赖包五、解压依赖包六、将文本文件上传到hdfs的/mymapreduce1/in目录下...原创 2019-11-05 15:25:45 · 291 阅读 · 0 评论 -
Hadoop伪分布模式安装
Hadoop伪分布模式安装相关知识Hadoop的运行模式分为3种:本地运行模式,伪分布运行模式,完全分布运行模式。(1)本地模式(local mode)这种运行模式在一台单机上运行,没有HDFS分布式文件系统,而是直接读写本地操作系统中的文件系统。在本地运行模式(local mode)中不存在守护进程,所有进程都运行在一个JVM上。单机模式适用于开发阶段运行MapReduce程序,这也是最...原创 2019-11-03 12:44:32 · 272 阅读 · 0 评论 -
Hadoop Shell基本操作
Hadoop Shell基本操作1.启动Hadoopcd /apps/hadoop/sbin ./start-all.sh 2.执行jps,检查一下Hadoop相关进程是否启动jps3.在/目录下创建一个test1文件夹hadoop fs -mkdir /test14.在Hadoop中的test1文件夹中创建一个file.txt文件hadoop fs -touchz /t...原创 2019-11-04 20:35:51 · 738 阅读 · 0 评论 -
Hadoop3.2.0详细安装步骤
一、环境准备①准备三台虚拟机,查看ip②先修改主机名(每个节点统一命名规范)修改/etc/hosts文件:(如下)172.18.96.1 master172.18.96.2 slave1172.18.96.3 slave3二、永久关闭防火墙systemctl stop firewalldsystemctl disable firewalld三、配置ssh免密登录三台机器都运...原创 2019-12-05 13:08:07 · 1322 阅读 · 1 评论 -
Hadoop的完全分布式安装
Hadoop的安装一、准备工作1.创建三台虚拟机;2.ip addr查看三台虚拟机的ip;3.用hostname修改主机名;4.三台主机都修改/etc/hosts文件: 文件内容为:172.18.74.59 cow1172.18.74.61 cow2172.18.74.65 cow35.查看三台主机是否可以ping通:命令:ping -c 3 cow2二、配置ssh免...原创 2019-10-24 14:02:22 · 205 阅读 · 0 评论 -
Spark on YARN安装
Spark on YARN安装1.安装Scala(1)首先解压scala:tar -zxvf scala安装包(2)修改环境变量:vim /etc/profile内容如下:export SCALA_HOME=/usr/scala/scala-2.11.12export PATH=$SCALA_HOME/bin:$PATH(3)生效环境变量:source /etc/prof...原创 2019-10-24 14:56:17 · 514 阅读 · 0 评论 -
Spark Sql
1.开启hadoop进程jps cd /apps/hadoop/sbin ./start-all.sh 2.下载一个json数据文件2.1将文件上传到hdfs上3.启动spark-shell4.读取HDFS中/myspark6的goods_visit.json文件。val df=sqlContext.read.json("hdfs://localhost:9000/mysp...原创 2019-11-14 21:09:11 · 188 阅读 · 0 评论 -
在linux系统中安装软件应用程序
在linux系统中安装软件应用程序一、使用rpm方式安装apache命令描述rpm -qa查询所有安装的软件包rpm -ivh 软件包名称查询软件包是否已经安装rpm -e --nodeps软件包名称强制卸载软件包步骤:挂载linux安装光盘到/mnt/cdrom...原创 2019-10-24 15:09:27 · 714 阅读 · 0 评论