DamoLLL-CSDN博客

原创 HDFS根据命令编写代码

HDFS根据命令编写代码package com.bigdata.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.fs.permission.FsPermission;import org.junit.Test;import java.io.IOException;import java.net.URI;import java.ut

2021-02-01 17:59:45 136

原创 HDFS Architecture（HDFS 结构）

HDFS Architecture（HDFS 结构）HDFS架构服务器：机架式服务器、刀片式服务器、塔式服务器官网地址：https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.htmlHDFS文件一旦创建，除了追加和截断外，不需要更改。支持将内容追加到文件末尾，但不能在任意点更新。Moving Computation is Cheaper than Moving Data 移动计算比移动数据

2021-02-01 17:51:15 262

原创 Maven中设置jdk的版本为 1.8，并生成模板

Maven中设置jdk的版本为 1.8，编码格式utf-8<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <version>3.1</version> <configuration> <source>1

2021-01-04 17:51:19 297

原创 Hadoop shell命令

HDFS的端口号9000：hdfs节点内部通信端口50070：hdfs的web端口出现以下问题：就是没有在环境变量PATH中找不到[hadoop@hadoop101 sbin]$ hadoop-daemon.sh-bash: hadoop-daemon.sh: command not foundhosts的位置HDFS集群注意事项如果对NN进行格式化，一定要保证DN和NN的 clusterID一样clusterID存在 /home/hadoop/apps/hadoop/data/df

2021-01-04 17:42:15 131

原创 Hadoop简介和安装

大数据1、海量数据2、处理海量数据的一系列技术：存储和计算大数据元年：2013年阿里王坚：2016年大数据技术解决两个问题1、存储数据2、计算数据准备工作准备三台虚拟机（hadoop101,hadoop102,hadoop103），他们之间可以相互拼通NAT模式：配置ip和主机的映射[root@hadoop101 ~]# vim /etc/hosts192.168.10.101 hadoop101192.168.10.102 hadoop102192.168.10.

2021-01-04 17:14:27 160

原创 Scala package和import

Scala package与import为什么要有package的概念？因为要对多个同名的类进行命名空间的管理，避免同名类发生冲突比如说，scala.collection.mutable.Map和scala.collection.immutable.Mappackage定义的第一种方式: 多层级package定义（比较差的做法，一般不这么干）package com { package sunny{ package scala { class T

2021-01-04 15:27:58 175

原创 Scala面向对象

面向对象创建类和对象package com.bigdata.scala03/*** 学生类* 属性：姓名、性别、年龄，地址** 行为：学习*/class Student { //成员变量: 最小化原则 /** * 成员变量初始化的_表示占位符。 * 占位符是在成员变量使用的时候需要被具体的数据替换的 * * val不能和_一起使用。 * 成员变量使用_初始化不能省略数据类型 * */ var name

2021-01-04 15:23:50 269

原创 Scala介绍

Scala介绍java和scala关系java — JVMxxx.java —javac— yyy.class ----- java真正在jvm中能够运行的是.class字节码文件Scala之父：Martin Odersky 马丁·奥德斯基Scala也是JVM系的语言。xxx.scala —scalac ---- yyy.class ---- scalascala和java是可以混合编程。scala底层用到的还是java,只是在java上套了一层壳，由于scala最终被编译为.class

2021-01-04 15:22:02 419

原创 Kafka JavaAPI

Kafka JavaAPI如果面试问用的是高级API还是低级API时，因为网上对高低级的定义不一致，所以要先问对高低级的定义是什么，有的把手动提交定义为低级，先导入依赖<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>1.0.2</version></

2021-01-04 15:19:19 182

原创 Kafka简介和操作

Kafka简介和操作消息引擎消息引擎（消息中间件、消息队列）：在消息传输过程中存储消息的容器A —> 消息引擎 <---- B消息引擎的好处解耦异步削峰填谷消息引擎的设计消息协议消息模型点对点 A发送的消息只能是B获取kafka中点对点的实现：一个分区只能被消费者组中的一个消费者消费发布订阅 A发送的消息可以被多个用户获取kafka中发布订阅的实现：kafka的主题/分区可以被多个消费者消费为什么不使用flume作为消息引擎

2021-01-04 15:16:54 121

原创 Kafka集群的下载和安装

Kafka集群的下载和安装下载地址：http://kafka.apache.org/downloads先启动zookeeper解压[hadoop@hadoop101 installPkg]$ tar -zxvf kafka_2.11-1.0.2.tgz -C ../apps/创建软连接[hadoop@hadoop101 apps]$ ln -s kafka_2.11-1.0.2/ kafka添加server配置（注意：配置zookeeper后面要有目录，否则在zk上的数据都在根

2021-01-04 10:54:06 103

原创 Flume简介和配置

Flume简介和配置官网地址：http://flume.apache.org/Flume是什么Flume是一个分布式数据收集框架。Flume是一种分布式的、可靠的、可用的服务，可以有效地收集、聚合和移动大量的日志数据。收集(collecting): — 数据源 source聚合(aggregating): — 存储 channel移动(moving ): — 使用 sink学习flume其实就是学习source、channel、sink的组合。flume是框架，框架都是傻子。框架本身是没

2020-12-27 21:59:21 281

原创 Flume的下载和安装

Flume的下载和安装下载地址：http://archive.apache.org/dist/flume/解压[hadoop@hadoop101 installPkg]$ tar -zxvf apache-flume-1.7.0-bin.tar.gz -C ../apps/创建软连接[hadoop@hadoop101 apps]$ ln -s apacheflume-1.7.0-bin/ flume更改配置文件名称[hadoop@hadoop101 conf]$ mv flum

2020-12-20 16:33:09 1367

原创 Hive 数据操作

Hive 数据操作插入（加载）数据方式一：使用load加载数据LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2...)]LOAD DATA LOCAL加载本地文件复制文件LOAD DATA加载hdfs文件移动文件演示一：## 加载本地文件到hive表中load data local inpath '/

2020-12-20 13:36:55 693

原创 Hive Shell命令

Hive Shell命令DatabaseCreate DatabaseCREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][MANAGEDLOCATION hdfs_path][WITH DBPROPERTIES(property_name=property_value, ...)];建库语句create database if not e

2020-12-20 13:29:36 344

原创 Hive简介

Hive简介官网：https://hive.apache.org/数据库 VS 数据仓库数据库和数据仓库本质的区别是：OLTP和OLAP的区别OLTP和OLAP的区别联机事务处理OLTP（on-line transaction processing）主要是执行基本的、日常的事务处理，比如数据库记录的增、删、改、查。比如在银行存取一笔款，就是一个事务交易。OLTP的特点一般有：实时性要求高；数据量不是很大；跟业务系统紧密关联并发性要求高并且严格的要求事务的完整,安全性。(比如这种情况:有

2020-12-13 20:00:56 220

原创 Hive的下载和安装

Hive的下载和安装下载地址：https://hive.apache.org/downloads.html先启动zookeeper、hdfs和yarn安装Hive上传压缩包路径：E:\大数据开发课程\大数据\大数据组件\apache-hive-1.2.2-bin.tar.gz解压[hadoop@hadoop101 installPkg]$ tar -zxvf apache-hive-1.2.2-bin.tar.gz -C ../apps/创建软连接[hadoop@hadoop

2020-12-12 17:21:23 2306

DamoLLL的博客