自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Spark运行原理

Spark运行原理 Application:Spark应用程序 指用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点运行的Executor代码 Spark应用程序,由一个或多个作业JOB组成 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-v1joyd3j-1596714706722)(C:\Users\hj\AppData\Roaming\Typora\typora-user-images\image-2020080609583561

2020-08-10 19:17:45 140

原创 spark(一)

Spark(一) 为什么使用Spark Map Reduce便车给模型的局限性 繁杂 只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码 处理效率低 Map中间结果写磁盘,Reduce写HDFS,多个Map通过HDFS交换数据 任务调度和启动开销大 不适合迭代处理,交互式处理和流式处理 Spark是类Hadoop MapReduce的通用的并行框架 Job中间输出结果可以保存在内存,不再需要读写HDFS 比MapReduce平均快10倍以上 Spark优势

2020-08-10 19:10:35 102

原创 hive数据倾斜

hive数据倾斜 什么是数据倾斜 数据倾斜主要表现在map/reduce程序执行时,reduce节点大部分执行完毕,但是又一个或者几个reduce节点运行很慢,导致整个程序的处理时间长,这是因为某一个key的条数比其他key多很多,这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完 数据倾斜常见原因 关键词 情形 后果 解决方法 join 其中一个表较小,但是key集中 分发到某一个或者几个Reduce上的数据远高于平均值 小表在j

2020-08-04 19:31:29 94

原创 Scala面向对象基本概念

Scala面向对象基本概念 类 类通过class关键字定义 类通过new关键字创建实例 类拥有成员变量和方法 类的成员默认为public,也支持private,protected 类中无法定义静态成员变量和方法 类无需明确定义构造方法,通过构造参数列表声明为类的一部分 类成员访问修饰符 java Modifier class package subclass world public Y Y Y Y protected Y Y Y N default Y N N N

2020-08-03 18:31:07 143

原创 Scala(二)

Scala match表达式 类似Java switch语句 能处理所有类型 不需要 能够生成值 val firstArg=if(args.length>0) args(0) else "" firstArg match{ case "salt" => println("pepper") case "chips" => println("salsa") case "eggs" => println("bacon") case _

2020-08-02 13:50:46 109

原创 Scala(一)

Scala Scala简介 Scala源自Java Scala构建在JVM之上 Scala与Java兼容,互通 Scala的优势 多范式编程:面向对象编程,函数式编程 表达能力强,代码精简 大数据与Scala Spark采用Scala语言设计 提供的API更加优雅 基于JVM的语言更融入Hadoop生态圈 Scala概述 面向对象特性 每个值都是对象 对象的数据类型和行为由类和特征描述 利用特征实现混入式多重继承 函数式编程 每个函数都是一个值 支持高阶函数,柯里化,

2020-08-02 13:50:16 78

原创 scala数组函数

scala数组函数 val a = Array(1,2,3,4) val b = Array(5,6,7,8) def ++ 合并集合,并返回一个新的数组,新数组包含左右两个集合对象内容 val c=a++b def ++: 合并成一个新的数组,右边操纵数的类型决定着返回结果的类型 val c = a++:c def +: 在数组前面添加一个元素,并返回新对象 val c = 1+:a def :+ 在数组末尾添加一个元素,并返回新对象 val c = a:+1 def /:

2020-07-29 19:26:18 268

原创 Sqoop数据迁移

Sqoop数据迁移 sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具 将数据从RDBMS导入到Hadoop HDFS,HIVE,HBASE 从Hadoop到处数据到RDBMS 将导入或导出命令翻译成MapReduce程序来并行操作和容错 sqoop安装 解压后复制hadoop的jar包和链接mysql驱动包到sqoop的lib文件夹下 cp /opt/soft/hadoop/share/hadoop/common/hadoop-common-2.6.0-cdh5.14

2020-07-22 09:46:35 111

原创 mapreduce原理

MapReduce原理 MapReduce的设计思想 分而治之 简化并行计算的编程模型 构建抽象模型:Map和Reduce 开发人员专注于实现Mapper和Reducer函数 隐藏系统层细节 开发人员专注于业务逻辑实现 MapReduce特点 优点 易于编程 可扩展性 高容错性 高吞吐量 不适用领域 难以实时计算 不适合流式计算 MapReduce执行过程 数据定义格式 map:(k1,v1)=>(k2,v2) reduce(k2,list(v2))=&gt

2020-07-02 19:05:25 120

原创 Hadoop生态系统

Hadoop生态系统 Hadoop是什么 Hadoop是一个开源分布式系统架构 分布式文件系统HDFS–解决大数据存储 分布式计算框架MapReduce–解决大数据计算 分布式资源管理系统YARN 处理海量数据的架构首选 非常快得完成大数据计算任务 已发展成为一个Hadoop生态圈 为什么使用Hadoop 高扩展性,可伸缩 高可靠性 多副本机制,容错高 低成本 无共享架构 灵活,可存储任意类型数据 开源,社区活跃 Hadoop vs RDBMS RDBMS Hadoop

2020-07-01 18:58:48 174

原创 HBase

HBase入门 NoSql:not only sql,非关系型数据库 NoSql是一个通用术语 指不遵循传统RDBMS模型的数据库 数据是非关系的,且不使用sql作为住哟啊查询语言 解决数据库的可伸缩行和可用性问题 不针对原子性或一致性问题 NoSql和关系型数据库对比 对比 NoSql 关系型数据库 常用数据库 HBase,MongoDB,Redis Oracle,DB2,MySql 存储格式 文档,键值对,图结构 表格式,行和列 存储规范 鼓励冗余 规范性,避免重

2020-06-22 19:31:49 117

原创 正则

正则表达式 正则的作用 分割 split 匹配 matcher 替换 replace 搜索 find search d 一个数字 0~9 D 一个非数字 w 一个字母 0~9 a~z W 一个非字母 . 任意一个字符 ? 1.修饰符 修饰前一个正则出现的次数为0~1次 2.模式选择(贪婪模式|非贪婪模式)ab.*?c 开启非贪婪模式(?修饰修饰符) + 修饰符 1.修饰前一个正则出现的次数为1~n次 2.独占模式 修饰修饰符 优先匹配修饰修饰符修饰的字符,不会回溯

2020-06-15 20:34:17 55

原创 hive

hive 入门 hive连接数据库 需要将mysql-connector-jar-5.1.38.jar复制到hive根目录下的lib文件夹下 schematool -dbType mysql initSchema 启动hive黑界面 beeline黑界面–jdbc黑界面 hiveserver2 beeline -u jdbc:hive2://192.168.56.100:10000 -n root mysql黑界面 hive --service metastore hive

2020-06-15 20:33:47 205

原创 Hive环境搭建

Hive 环境搭建 安装zookeeper 前置条件安装完hadoop集群 下载zookeeper,并解压 修改zoo.cfg cp zoo_template.cfg zoo.cfg(此文件在conf文件夹下) 修改zoo.cfg dataDir=/opt/soft/zk/tmp 配置环境变量 export ZOOKEEPR_HOME=/zookeeper解压路径 export PATH=PATH:PATH:PATH:ZOOKEEPER_HOEM/bin

2020-06-09 15:36:33 86

原创 hadoop伪分布式环境搭建

hadoop伪分布式环境搭建 首先解压文件 tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz 进入etc/hadoop目录下修改配置文件 hadoop-env.sh export JAVA_HOME=/opt/soft/jdk180 core-site.xml <configuration> <property> <name>fs.defaultFS</name> &l

2020-06-01 19:12:40 109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除