m0_46480050-CSDN博客

原创 Spark运行原理

Spark运行原理Application:Spark应用程序指用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点运行的Executor代码Spark应用程序,由一个或多个作业JOB组成[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-v1joyd3j-1596714706722)(C:\Users\hj\AppData\Roaming\Typora\typora-user-images\image-2020080609583561

2020-08-10 19:17:45 153

原创 spark(一)

Spark(一)为什么使用SparkMap Reduce便车给模型的局限性繁杂只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码处理效率低Map中间结果写磁盘,Reduce写HDFS,多个Map通过HDFS交换数据任务调度和启动开销大不适合迭代处理,交互式处理和流式处理Spark是类Hadoop MapReduce的通用的并行框架Job中间输出结果可以保存在内存,不再需要读写HDFS比MapReduce平均快10倍以上Spark优势

2020-08-10 19:10:35 108

原创 hive数据倾斜

hive数据倾斜什么是数据倾斜数据倾斜主要表现在map/reduce程序执行时,reduce节点大部分执行完毕,但是又一个或者几个reduce节点运行很慢,导致整个程序的处理时间长,这是因为某一个key的条数比其他key多很多,这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完数据倾斜常见原因关键词情形后果解决方法join其中一个表较小,但是key集中分发到某一个或者几个Reduce上的数据远高于平均值小表在j

2020-08-04 19:31:29 101

原创 Scala面向对象基本概念

Scala面向对象基本概念类类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public,也支持private,protected类中无法定义静态成员变量和方法类无需明确定义构造方法,通过构造参数列表声明为类的一部分类成员访问修饰符javaModifierclasspackagesubclassworldpublicYYYYprotectedYYYNdefaultYNNN

2020-08-03 18:31:07 154

原创 Scala(二)

Scalamatch表达式类似Java switch语句能处理所有类型不需要能够生成值val firstArg=if(args.length>0) args(0) else ""firstArg match{ case "salt" => println("pepper") case "chips" => println("salsa") case "eggs" => println("bacon") case _

2020-08-02 13:50:46 114

原创 Scala(一)

ScalaScala简介Scala源自JavaScala构建在JVM之上Scala与Java兼容,互通Scala的优势多范式编程:面向对象编程,函数式编程表达能力强,代码精简大数据与ScalaSpark采用Scala语言设计提供的API更加优雅基于JVM的语言更融入Hadoop生态圈Scala概述面向对象特性每个值都是对象对象的数据类型和行为由类和特征描述利用特征实现混入式多重继承函数式编程每个函数都是一个值支持高阶函数,柯里化,

2020-08-02 13:50:16 86

原创 scala数组函数

scala数组函数val a = Array(1,2,3,4)val b = Array(5,6,7,8)def ++合并集合,并返回一个新的数组,新数组包含左右两个集合对象内容val c=a++bdef ++:合并成一个新的数组,右边操纵数的类型决定着返回结果的类型val c = a++:cdef +:在数组前面添加一个元素,并返回新对象val c = 1+:adef :+在数组末尾添加一个元素,并返回新对象val c = a:+1def /:

2020-07-29 19:26:18 284

原创 Sqoop数据迁移

Sqoop数据迁移sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具将数据从RDBMS导入到HadoopHDFS,HIVE,HBASE从Hadoop到处数据到RDBMS将导入或导出命令翻译成MapReduce程序来并行操作和容错sqoop安装解压后复制hadoop的jar包和链接mysql驱动包到sqoop的lib文件夹下cp /opt/soft/hadoop/share/hadoop/common/hadoop-common-2.6.0-cdh5.14

2020-07-22 09:46:35 117

原创 mapreduce原理

MapReduce原理MapReduce的设计思想分而治之简化并行计算的编程模型构建抽象模型:Map和Reduce开发人员专注于实现Mapper和Reducer函数隐藏系统层细节开发人员专注于业务逻辑实现MapReduce特点优点易于编程可扩展性高容错性高吞吐量不适用领域难以实时计算不适合流式计算MapReduce执行过程数据定义格式map:(k1,v1)=>(k2,v2)reduce(k2,list(v2))=&gt

2020-07-02 19:05:25 136

原创 Hadoop生态系统

Hadoop生态系统Hadoop是什么Hadoop是一个开源分布式系统架构分布式文件系统HDFS–解决大数据存储分布式计算框架MapReduce–解决大数据计算分布式资源管理系统YARN处理海量数据的架构首选非常快得完成大数据计算任务已发展成为一个Hadoop生态圈为什么使用Hadoop高扩展性,可伸缩高可靠性多副本机制,容错高低成本无共享架构灵活,可存储任意类型数据开源,社区活跃Hadoop vs RDBMSRDBMSHadoop

2020-07-01 18:58:48 190

原创 HBase

HBase入门NoSql:not only sql,非关系型数据库NoSql是一个通用术语指不遵循传统RDBMS模型的数据库数据是非关系的,且不使用sql作为住哟啊查询语言解决数据库的可伸缩行和可用性问题不针对原子性或一致性问题NoSql和关系型数据库对比对比NoSql关系型数据库常用数据库HBase,MongoDB,RedisOracle,DB2,MySql存储格式文档,键值对,图结构表格式,行和列存储规范鼓励冗余规范性,避免重

2020-06-22 19:31:49 128

原创正则

正则表达式正则的作用分割split匹配matcher替换replace搜索find searchd 一个数字 0~9D 一个非数字w 一个字母 0~9 a~zW 一个非字母. 任意一个字符? 1.修饰符修饰前一个正则出现的次数为0~1次 2.模式选择(贪婪模式|非贪婪模式)ab.*?c 开启非贪婪模式(?修饰修饰符)+ 修饰符 1.修饰前一个正则出现的次数为1~n次 2.独占模式修饰修饰符优先匹配修饰修饰符修饰的字符,不会回溯

2020-06-15 20:34:17 65

原创 hive

hive 入门hive连接数据库需要将mysql-connector-jar-5.1.38.jar复制到hive根目录下的lib文件夹下schematool -dbType mysql initSchema启动hive黑界面beeline黑界面–jdbc黑界面hiveserver2beeline -u jdbc:hive2://192.168.56.100:10000 -n rootmysql黑界面hive --service metastorehive

2020-06-15 20:33:47 215

原创 Hive环境搭建

Hive环境搭建安装zookeeper前置条件安装完hadoop集群下载zookeeper,并解压修改zoo.cfgcp zoo_template.cfg zoo.cfg(此文件在conf文件夹下)修改zoo.cfgdataDir=/opt/soft/zk/tmp配置环境变量export ZOOKEEPR_HOME=/zookeeper解压路径export PATH=PATH:PATH:PATH:ZOOKEEPER_HOEM/bin

2020-06-09 15:36:33 95

原创 hadoop伪分布式环境搭建

hadoop伪分布式环境搭建首先解压文件 tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz 进入etc/hadoop目录下修改配置文件hadoop-env.shexport JAVA_HOME=/opt/soft/jdk180core-site.xml<configuration> <property> <name>fs.defaultFS</name> &l

2020-06-01 19:12:40 119

m0_46480050的博客