- 博客(190)
- 收藏
- 关注
原创 Spark离线日志分析,连接Spark出现报错
java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries (on a random free port)! Consider explicitly setting the appropriate binding address for the service 'sparkDriver' (for example spark.driver.bindAddress f
2020-04-12 17:48:17
1011
2
原创 【Scala】利用akka实现Spark启动通信
文章目录思路分析步骤一、创建maven工程,导包二、master进程代码开发三、worker进程代码开发思路分析1.首先启动master,然后依次启动worker2.启动worker时,向master发送注册信息(使用case class封装注册信息——workerID,memory,cores)3.接收注册信息,保存注册的worker信息,返回注册成功的消息4.worker需要定时向...
2020-04-12 15:46:24
324
原创 【Scala】代码实现Actor多种需求
包括简单实现Actor并发编程,发送没有返回值的异步消息,发送持续不间断消息,使用react方法receive方法等
2020-04-11 16:56:16
184
原创 【Scala】isInstanceOf 与 classOf的对比,代码+注解简洁明了
直接利用代码+注解的方式,能让人通过实例更快更直接地看到isInstanceOf和classOf的对比
2020-04-10 13:11:52
228
原创 【Scala】scala的继承能干嘛?这段简单的代码或许能帮你梳理
package cn.itcast.scala.demo2class Person { //private关键字和final关键字修饰的常量无法被继承重写 val id: Int = 1 var name: String = "zhangsan" def sayHello = println("hello")}// 子类可以使用extends继承父类,这么做可以提高代码...
2020-04-10 12:07:36
203
原创 【Scala】看代码,初步了解Apply方法
class ApplyTest(val name:String) { /** * apply源码 * def apply(x: Int, xs: Int*): Array[Int] = { * val array = new Array[Int](xs.length + 1) * array(0) = x * var i = 1 * ...
2020-04-10 11:41:36
177
原创 【Scala】通过简洁代码搞明白伴生关系、主构造器和辅助构造器的关系
/** * 主构造器直接定义在类名称的后面,参数列表和类名写在一起 * 主构造器的参数会自动提升为对象的属性,不需要在对象中重新定义一遍 */class Student(val id: Int, name: String) { println("主构造器开始执行") //Student类的私有属性 private val city = "beijing" //调用obj...
2020-04-10 09:38:00
204
原创 【Scala】关于集合的各种知识点
目录映射Map不可变Map概述操作实例映射MapMap可以分为可变Map和不可变Map,默认情况是不可变Map。两者之间的定义格式完全相同,区别在于导包 不可变Map概述有两种定义格式:1.val m1 = Map(k1 -> v1,k2 -> v2,k3 -> v3)2.val m2 = Map((k1 , v1),(k2 , v2),(k3 , v...
2020-04-09 21:10:23
263
原创 【Scala】新手入门,基础语法概览
目录变量、常量和数据类型varval数据类型条件表达式块表达式to循环for循环for推导式变量、常量和数据类型varvar修饰的是变量,variable,值是可变的var 变量名 [: 变量类型] = 变量值scala> var age : Int = 23age: Int = 23scala> var age = 23 //这里的变量类型可以省略不写,scal...
2020-04-09 12:35:20
443
原创 【Spark】RDD(Resilient Distributed Dataset)究竟是什么?
目录基本概念官方文档概述含义RDD出现的原因五大属性以单词统计为例,一张图熟悉RDD当中的五大属性解构图RDD弹性RDD特点分区只读依赖缓存checkpoint基本概念官方文档介绍RDD的官方说明:http://spark.apache.org/docs/latest/rdd-programming-guide.html概述含义RDD (Resilient Distributed D...
2020-04-07 22:15:02
871
原创 【Spark】使用java语言开发spark程序
目录步骤一、创建maven工程,导入jar包二、开发代码步骤一、创建maven工程,导入jar包<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> </prope...
2020-04-07 16:28:08
1858
原创 【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件
目录可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFS二、开发scala代码standAlone模式查看HDFS上的文件步骤一、退出local模式,重新进入Spark-shell二、开发scala代码可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFScd /export/servers/sparkdatashdfs dfs -mkdir -p /sp...
2020-04-07 15:02:44
568
原创 【Spark】Spark-shell案例——单词计数统计
目录步骤一、准备本地文件以作测试二、通过 --master启动本地模式三、开发scala单词统计代码步骤一、准备本地文件以作测试在第一台机器执行mkdir -p /export/servers/sparkdatascd /export/servers/sparkdatas/vim wordcount.txthello mehello youhello her二、通过 --...
2020-04-07 12:12:36
2187
原创 【Spark】Spark必不可少的多种集群环境搭建方法
目录Local模式运行环境搭建小知识搭建步骤一、上传压缩包并解压二、修改Spark配置文件三、启动验证进入Spark-shell四、运行Spark自带的测试jar包standAlone模式运行环境搭建搭建步骤一、修改配置文件三、将配置好的安装包分发到其他机器四、启动Spark程序五、页面访问六、进入Spark-shell测试启动七、运行Spark自带的测试jar包HA模式运行环境搭建搭建步骤一、停...
2020-04-06 23:45:42
701
原创 【Spark】必须要用CDH版本的Spark?那你是不是需要重新编译?
目录为什么要重新编译?步骤一、下载Spark的源码二、准备linux环境,安装必须软件三、解压spark源码,修改配置,准备编译四、开始编译为什么要重新编译?由于我们所有的环境统一使用CDH的软件版本,并且对应的CDH版本是5.14.0这个版本,所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spark对应的5.14.0的CDH版本的软件spark的版本还停留在spark...
2020-04-06 15:39:47
987
原创 【Spark】一起了解一下大数据必不可少的Spark吧!
目录Spark概述官网Spark是什么?特点Spark架构模块主要架构模块Spark CoreSpark SQLSpark StreamingMLlibGraghX集群管理器主要运行角色MasterWorkerExecutorTaskApplicationJobclientDriverSpark运行模式Spark概述官网http://spark.apache.org/Spark是什么?...
2020-04-06 15:16:25
681
原创 就没有我遇不到的报错!java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/Filter
本来准备用HBase的Bulkload将HDFS的HFile文件导入到HBase的myuser2表中,用的是yarn jar的命令yarn jar /export/servers/hbase-1.2.0-cdh5.14.0/lib/hbase-server-1.2.0-cdh5.14.0.jar completebulkload /hbase/hfile_out myuser2结果直接报错...
2020-04-04 01:59:45
721
原创 【HBase】通过Bulkload批量加载数据到Hbase表中
目录需求步骤一、开发MapReduce需求将hdfs上面的这个路径 /hbase/input/user.txt 的数据文件,转换成HFile格式,然后load到myuser2表里面去先清空一下myuser2表的数据 —— truncate 'myuser2'步骤一、开发MapReduce定义一个main方法类——BulkloadMainpackage cn.itcast.mr.d...
2020-04-04 01:48:26
337
原创 【HBase】HBase和Hue的整合
目录一、修改hue.ini配置文件二、启动HBase的thrift server服务三、启动Hue四、页面访问一、修改hue.ini配置文件cd /export/servers/hue-3.9.0-cdh5.14.0/desktop/confvim hue.ini[hbase] hbase_clusters=(Cluster|node01:9090) hbase_conf_di...
2020-04-04 00:27:43
451
原创 【HBase】协处理器是什么?又能干什么?怎么用?
目录简单了解官方帮助文档协处理器出现的原因协处理器的分类ObserverEndpointPhoenix协处理器的使用加载方式静态加载动态加载协处理器的卸载协处理器Observer应用实战需求步骤一、HBase当中创建第一张表proc1和第二张表proc2二、开发HBase的协处理器三、将java打成Jar包,上传到HDFS四、将jar包挂载到proc1表五、用JavaAPI想proc1表中添加数据...
2020-04-04 00:08:30
1103
原创 【HBase】带你了解一哈HBase的各种预分区
目录简单了解概述设置预分区一、手动指定预分区二、使用16进制算法生成预分区三、将分区规则写在文本文件中四、使用JavaAPI进行预分区简单了解概述由上图可以看出,每一个表都有属于自己的一个Region,但Region内的数据达到10GB时,会进行分割,但仍会在同一个RegionServer上,而预分区的作用主要是增加数据读写效率、负载均衡、防止数据倾斜、方便集群容灾调度Region和优化...
2020-04-03 17:59:25
756
1
原创 【HBase】快速了解上手rowKey的设计技巧
目录为什么要设计rowKey三大原则长度原则散列原则唯一原则热点问题的解决加盐哈希反转时间戳反转为什么要设计rowKey首先要弄明白一点,Regions的分区就是根据数据的rowKey处理的,而如果设计rowKey不合理,就会导致所有数据到一个分区,或者并没有很好地发挥预分区带来的负载均衡作用,还是会发生数据倾斜。HBase中还有一个就是rowKey的热点问题,因为rowKey是根据字典顺...
2020-04-03 17:57:47
606
原创 【HBase】HBase和Sqoop整合
目录需求一步骤一、修改sqoop配置文件二、在mysql中创建数据库和数据表并插入数据三、将mysql表中的数据导入到HBase表中四、在HBase表中查看数据需求二步骤一、创建hive外部表二、创建hive内部表并将外部表数据插入到内部表三、清空mysql表数据四、通过sqoop将hive内部表的数据导出到Mysql五、查询结果需求一将mysql表当中的数据导入到HBase中步骤一、修...
2020-04-03 15:12:07
682
原创 【HBase】快速搞定HBase与Hive的对比、整合
目录对比整合需求一步骤一、将HBase的五个jar包拷贝到Hive的lib目录下二、修改hive的配置文件三、在Hive中建表四、创建hive管理表与HBase映射五、在HBase中查看hbase_score需求二步骤一、在HBase中创建表并插入数据二、建立hive外部表,映射HBase中的表及字段对比整合需求一将hive分析结果的数据,保存到HBase当中 步骤一...
2020-04-03 00:04:08
581
原创 hive元数据报错?试了很多方法都没辙?也许你漏了这一步
进入hiveCLI后,输入show databases;显示FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.Session...
2020-04-02 22:33:55
474
原创 【HBase】HBase与MapReduce集成——从HDFS的文件读取数据到HBase
java代码实现MapReduce从HDFS读取文件数据,并将数据写入Hbase表中
2020-04-01 02:17:57
394
原创 【HBase】Java实现过滤器查询
目录概述代码实现rowKey过滤器RowFilter列族过滤器FamilyFilter列过滤器QualifierFilter概述过滤器可以分为两种:比较过滤器和专用过滤器。过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端。比较过滤器LESS —— 小于LESS_OR_EQUAL —— 小于等于EQUAL —— 等于NOT_EQUAL —— 不等于...
2020-03-29 22:22:38
1445
原创 【Hadoop离线基础总结】Hadoop High Availability\Hadoop基础环境增强
目录简单介绍Hadoop HA 概述NameNode简单介绍Hadoop HA 概述HA(High Available) —— 高可用,是保证业务连续性的有效解决方案。一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行...
2020-03-26 22:10:54
404
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅