luckboy0000-CSDN博客

原创 Spark SQL

什么是Spark SQLSpark SQL是spark处理结构化数据的一个模块，它提供了两个编程抽象：DataFrame和DataSet，并作为分布式sql的查询引擎hive的工作原理是将任务转化成MR，而Spark SQL是将Spark SQL转化成RDD，然后提交集群执行，效率高Spark SQL 的特点1.易整合2.统一的数据访问方式3.兼容hive4.标准的数据连接什么是DataFrameDataFrame和RDD类似，也是一个分布式数据容器，DataFrame可以体现出数据存放

2021-06-07 15:40:06 126

原创 Spark-core

什么是SparkSpark是基于内存的快速，通用，可扩展的大数据分析引擎Spark的内置模块Spark Core是Spark可以离线处理的部分，实现了spark的基本功能，包含任务调度，错误恢复，与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集的APISpark SQL可以使用sql结构化语句来查询数据，支持多种数据源，hive，json等Spark Streaming是Spark 对实时数据进行流式计算的组件。提供用来操作数据流的APISpark MLlib提

2021-06-02 11:37:05 223

原创 Scala

Scala特性1、跨平台性：因为Scala语言编译之后也是会生成.class文件所有可以用JVM进行执行，所以有跨平台性2、类型推断：不用定义变量类型，直接写值，可以推断出是什么类型3、并发性和分布式4、抽象类和接口的融合5、模式匹配，，在switch中可以判断类型6、高阶函数：返回值类型和表达式都是函数...

2021-05-12 11:56:01 181

原创 Sqoop

Sqoop是干什么的Sqoop是一个能将传统关系型数据库中的数据导入到hive，hdfs，hbase中的工具，也可以将hive，hdfs，hbase中的数据导入到传统关系型数据库中。Sqoop的原理Sqoop是将任务转化成MR任务执行主要是对MR任务中的inputformat，outputformat进行定制Sqoop的安装1.将安装包导入到linux系统中2.将安装包解压3.将配置文件改名cp sqoop-env-template.cmd sqoop-env.cmd4.配置sqoop

2021-05-10 09:29:44 120

原创 Hive----HBase

连接配置1.给hive建立hbase的jar包的软链接ln -s $HBASE_HOME/lib/hbase-common-1.3.1.jar $HIVE_HOME/lib/hbase-common-1.3.1.jarln -s $HBASE_HOME/lib/hbase-server-1.3.1.jar $HIVE_HOME/lib/hbase-server-1.3.1.jarln -s $HBASE_HOME/lib/hbase-client-1.3.1.jar $HIVE_HOME/lib/h

2021-04-29 15:12:17 82

原创 MR--HBase

1.配置环境变量sudo vim /etc/profile在其中添加：export HADOOP_CLASSPATH=`$HBASE_HOME/bin/hbase mapredcp`2.刷新环境变量文件source /etc/profile3.尝试运行官方案例官方案例在lib文件夹中yarn jar hbase-server-1.3.1.jar rowcounter fiudd统计有多少行数据4.尝试运行官方案例2首先将数据上传到hdfs上在hbase上建立一个表creat

2021-04-28 16:08:36 158

原创 hbase---API

客户端连接//用HBaseConfiguration.create()创建一个config对象 Configuration conf = HBaseConfiguration.create(); //说明要连接的ip地址 conf.set("hbase.zookeeper.quorum","192.168.245.139"); conf.set("hbase.zookeeper.property.clientport","2181");

2021-04-27 14:07:32 155

原创 hbase

Hbase是什么HBase的原型是Google的 BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。官网：http://hbase.apache.orgHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。Hbase的目标是存储并处理大型的数据HBase是 Google Bigtable的开源实现，但是也有很多不同之处。比如: Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作

2021-04-22 11:39:59 114

原创 zookeeper安装|工作机制|特点|数据结构|服务|选举机制|监听机制|写数据流程

zookeeper是什么这是hadoop的生态系统zookeeper在其中充当的的是动物管理员的功能他能监视其他组件有没有正常的运行总结：Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache 项目。zookeeper的工作机制Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做

2021-04-19 15:32:19 200

原创 Hive-数据仓库

数据仓库概念数据仓库是一个面向主题的，集成的，相对稳定的。反应历史变化的数据集合，用于支持决策主题：把不同数据库和用户相关的数据抽取在一起集成：进行合并相对稳定：不是实时的（因为数据量太大，影响网站运行效率），一般按天对数据进行抽取，合并反应历史变化：用来统计，进行管理决策传统数据库面临的挑战（不足）1.无法满足快速增长的海量数据的存储需求2.无法有效处理不同类型的数据3.计算和处理能力不足hive官网：http://hive.apache.org/简介Hive是基于Hadoo

2021-03-29 15:04:48 781

原创 Yarn详解

Yarn定义Yarn是一个负责资源调度和任务管理的资源调度平台，它相当于电脑的操作系统，而MapReduce相当于在yarn上运行的应用程序Yarn基本框架Yarn主要由RecourceManager，NodeManager，ApplicationMaster，Container等组件构成Yarn的框架图：首先客户端向ResourceManager提交作业，ReduceManager会在相对空闲的DataNode上启动一个AppMaster（它相当于此次作业的代理人），AppMaster会将

2021-03-17 11:42:42 615

原创大数据---hadoop

大数据特点1.Volume （大量）2.Velocity （高速）3.Variety（种类）4.Value（低价值密度）Hadoop由Apache基金会开发的分布式系统基础架构分布式：拆分任务分而治之hadoop组成（面试重点）Hadoop1.x和Hadoop2.x的区别Hadoop1：MapReduce(计算+资源调度)压力大HDFS(数据存储)Common（辅助工具）Hadoop2：MapReduce(计算)Yarn（资源调度）HDFS(数据存储)Common（辅助

2020-12-29 16:45:39 407

原创 javascript

Java安装的注意事项：安装路径不能有空格和中文环境变量：此电脑->右键属性->高级属性->高级->环境变量JAVA_HOME:Java安装的路径Path:bin安装路径IDEA(P J)1.傻瓜式安装（安装时只选择X86）HTML:(大小写不敏感)<(html lang=“en”>变化可识别语言类型<(head> 首部《metu charset=“UTF-8”》设置字符集《title》标题《/title》《/head》《bod

2020-12-28 16:35:45 104

原创 MapReduce详解

MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”在windows下实现wordcountpublic class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable> { @Override protected void map(LongWritable key, Text value, Context cont

2020-12-19 16:11:47 317

原创在Windows环境下安装hadoop | windows下操作HDFS

安装hadoop1.首先解压hadoop安装包2.直接配置hadoop环境变量HADOOP_HOME=hadoop安装路径（不要有中文目录）在PATH里添加hadoop下bin的路径3.测试：在cmd窗口 hadoop version 显示版本号则安装成功maven1.启动idea2.建立maven工程3.在自动生成的pom.xml文件下导包导包1.在setting下输入maven，找到它有settings.xml文件2.编辑这个文件修改这两部分<localReposi

2020-12-16 15:31:21 364

原创 HDFS面试题

HDFS的写数据流程1.客户端向NameNode请求上传文件2.NameNode判断是否有这个目录，这个目录下是否有这个文件如果有这个文件则无法上传3.要传300MB的文件首先请求上传第一个Block（0-128）4.返回三个节点的，表示用这三个节点保存数据5.客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2,然后dn2调用dn3，将这个通信管道建立完成。6.dn1、 dn2、 dn3逐级应答客户端。7.客户端开始往 dn1 上传第一个 B

2020-12-14 16:56:13 189

原创 HDFS详解|namenode的启动原理|SeconderyNameNode的工作原理|HDFS缺点|数据存放策略|块的大小是怎么定的|集群安全模式|退役节点

Hadoop版本1.hadoop有两个完全不同的版本hadoop 1.0 架构里有：MapReduceHDFScommonhadoop 2.0架构里有：MapReduceyarnHDFScommon2.hadoop2.0中MapReduce是运行在yarn上的HDFS思想：将一台机器上存不下的数据存到多台机器上HDFS体系HDFS采用了主从(Master/Slave)结构模型，一个HDFs集群包括一个名称节点(NarmeNode)和若干个数据节点（DataNode)。名称节点

2020-12-13 16:57:37 1223

原创 ssh加密协议

SSH协议SSH是一种网络协议用于密码加密基本用法SSH最基本的用法：例：用户名：user登录的远程主机名：hostssh user@host 登录到host主句上的user用户，如果本地的用户名和远程的用户名相同时可以省略用户名ssh host退出：exitSSH两种认证方式基于用户密码的安全认证ssh user@host基于密钥的安全认证使用公钥和私钥对的方式对用户进行认证ssh-keygen -t rsa 生成钥匙对这个钥匙对在家目录下有一个隐藏文件夹 .ssh下s

2020-12-07 16:19:25 583

原创 Shell笔记--大全

Shell系统变量set 查看系统变量常见的系统变量HOME：打印用户家目录。SHELL：显示当前shell类型。USER：打印当前用户名。ID：打印当前用户ID信息。PWD：显示当前所在路径。TERM：打印当前终端类型。HOSTNAME：显示当前主机名。$HOME 打印用户家目录自定义变量A=10 定义一个A值为10,10为字符串类型c=“Hello word” 如果定义的变量中有空格加引号普通变量可重新赋值注意：变量名由字母，数字，下划线组成，首位不能是数字。变量名和等

2020-12-06 10:37:40 100

原创 linux命令|静态网络配置|克隆虚拟机---小白笔记

Linux命令快捷键pwd查看当前所在文件夹的绝对路径ctrl+l清屏tab键补齐内容上下键查询之前的命令lsls 查看目录 -a查看所有（包括隐藏目录） -l对所显示的文本进行列格式化 -la可连用ll ls -l的缩写cdcd - 返回上一次的目录cd … 返回上一级目录cd ~ 返回家目录cd 返回家目录manman ls（命令名）获取命令的具体如何运用技巧 q返回mkdirmkdir a（要创建的文件名）（不论.扩展名是什么linux都把它视为一个文件

2020-12-01 15:09:09 1600 3

llLucky_BOY_的博客