big data
大大、酥
现在目标:专注100%
终极目标:透过现象看本质
展开
-
hbase出现 org.apache.hadoop.hbase.PleaseHoldException: Master is initializing的解决方法
这是出现的问题:刚刚配置好的hbase,想使用list却出现了这样的问题,通过网上资料说原博客地址:https://blog.csdn.net/liuxiao723846/article/details/53146304并没有解决我的问题。我在次进行list操作的时候,查看日志:发现应该是zookeeper配置没有识别hadoop102的关系,可能是端口名和主机映射出现了问题。因此我在每个主机上都...原创 2018-07-08 19:50:59 · 23353 阅读 · 1 评论 -
Scala复习教程(自用)
Scala复习教程(自用)链接:https://pan.baidu.com/s/1qiprDWLfumnyX48sRURiuQ提取码:zqqy原创 2019-03-26 16:52:24 · 344 阅读 · 0 评论 -
IllegalArgumentException:requirement failed: No output operations registered, so nothing to execute
ERROR StreamingContext: Error starting the context, marking it as stoppedjava.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute at scal...原创 2019-04-01 09:49:46 · 2556 阅读 · 1 评论 -
spark内核解析——spark 脚本解析
更好的理解spark——spark 脚本解析在学习spark的时候,我们一个start-all.sh就将spark集群成功启动,有没有仔细看过这里面的细节呢?今天来总结一下spark启动脚本的流程集群启动脚本:start-all.shspark-config.sh 的作用主要就是初始化两个环境变量spark-master.sh 的作用是初始化变量,启动master进程调用spa...转载 2019-04-11 13:27:32 · 212 阅读 · 0 评论 -
spark内核解析——spark通信架构
更好的理解spark——spark通信架构此篇摘抄自某教程的ppt,希望大家可以更深刻的理解sparkspark既然是分布式集群,那么他的master和worker节点之间是怎么进行通信的?spark1.3之前的通信框架是什么?之后为什么不使用这个通信框架了?1、Spark内部的通信架构使用Actor模型进行开发,在Spark1.3之前直接使用AKKA来作为具体的通信框架。为了解决s...转载 2019-04-11 15:34:55 · 402 阅读 · 0 评论 -
spark内核解析——spark master和worker的启动
更好的理解spark——spark master和worker的启动1、master通过start-master.sh 启动之后,首先创建了RpcENV。设置了MasterEndpoint这种通讯环境,然后通过onstart来初始化了自己的服务,通过receive和receiveAndReplay方法来初始化了消息体系。2、worker通过start-slave.sh 启动之后,首先创建了R...转载 2019-04-11 15:43:10 · 1485 阅读 · 0 评论 -
Kafka的坑: 消费者无法消费消息
问题:今天使用Kafka做一个小DEMO,但运行的时候,可以在控制台上看到生产者发送的消息,无法看到消费者在消费消息,但通过命令行可以看到消费者消费的消息。生产者应该是没有问题的,给出消费者的代码:/** * Kafka消费者 */public class KafkaConsumer extends Thread{ private String topic; public...原创 2019-03-29 11:19:31 · 22255 阅读 · 9 评论 -
大数据开发注意事项
大数据开发注意事项今天开始记录一下大数据之路的坑:所有的地址,不管本地还是远程的的,全部写192.xxx.xxx.xxx,不许写localhost所有的字符串切割操作,全部分开进行切割,不许一行代码写多个字符串的操作在map函数中的操作,能直接利用索引在数组中取到,就不要自己额外的定义一行变量,容易出错自己定义变量的时候,一定要注意val和var的使用(绝大多数在map函数中自定义的变...原创 2019-04-02 19:43:37 · 383 阅读 · 0 评论 -
Hive与MySQL的区别
Hive与MySQL的区别MySQL逻辑架构图:Hive的架构图:两者的比较:Hive采用了类SQL的查询语言HQL(hive query language)。除了HQL之外,其余无任何相似的地方。Hive是为了数据仓库设计的。存储位置:Hive在Hadoop上;Mysql将数据存储在设备或本地系统中;数据更新:Hive不支持数据的改写和添加,是在加载的时候就已经确定好了;数...原创 2019-04-23 21:38:43 · 30166 阅读 · 4 评论 -
Hive创建表:FailedPredicateException(identifier,{useSQL11ReservedKeywordsForIdentifier()}?)
FailedPredicateException(identifier,{useSQL11ReservedKeywordsForIdentifier()}?)先给出解决办法,喜欢看案例的可以看下面的案例:你在创建表的时候,使用了Hive的关键字作为字段,这样肯定会报错呀!!!错误信息:错误的语句:CREATE TABLE serde_regex1( host STRING, ...原创 2019-04-25 09:23:31 · 2075 阅读 · 0 评论 -
sqoop map:100% reduce:0%卡住
sqoop执行作业: map:100% reduce:0%卡住我的情况是使用sqoop从hive向RDBMS中导入数据出现的。对于这种情况:绝大多数都是yarn的配置问题。内存与CPU的资源不够。解决:更改yarn中的设置<property> <name>yarn.nodemanager.resource.memory-mb</name> ...转载 2019-03-29 18:21:16 · 3593 阅读 · 0 评论 -
org.apache.flume.FlumeException: NettyAvroRpcClient { host: xxx.xxx.xxx.xxx, port: xxxxx}: RPC
错误如下:org.apache.flume.FlumeException: NettyAvroRpcClient { host: xxx.xxx.xxx.xxx, port: xxxxx }: RPC根本原因:当前启动的这个flume-agent无法连接这个(host:port)的服务。解决:使用netstat -tunlp|grep xxxxx查看当前这个端口号是否被监控。如果没有被监...原创 2019-03-29 18:02:04 · 5139 阅读 · 0 评论 -
Storm:ERROR o.a.s.util - Halting process: ("Worker died")
8216 [Thread-26-PVSumBolt-executor[6 6]] ERROR o.a.s.util - Async loop died!java.lang.RuntimeException: java.lang.ClassCastException: java.lang.Long cannot be cast to java.lang.Integer at org.apac...原创 2018-07-24 17:18:32 · 3810 阅读 · 2 评论 -
Spark in yarn:Yarn application has already ended! It might have been killed or unable ……
使用Spark基于yarn进行操作,发生了错误,先附上日志:18/08/11 20:29:29 INFO yarn.Client: client token: N/A diagnostics: Application application_1533988876407_0004 failed 2 times due to AM Container ...原创 2018-08-11 21:04:19 · 1439 阅读 · 0 评论 -
ClassCastException:org.apache.hadoop.mapreduce.lib.input.FileSplit cannot be cast to org.apache.had
java.lang.Exception: java.lang.ClassCastException: org.apache.hadoop.mapreduce.lib.input.FileSplit cannot be cast to org.apache.hadoop.mapred.FileSplit at org.apache.hadoop.mapred.LocalJobRunner$Job...原创 2018-09-06 18:38:12 · 1552 阅读 · 0 评论 -
import spark.implicits._ 报红,无法导入
先给出错误的代码def main(args: Array[String]): Unit = { //Create SparkConf() And Set AppName SparkSession.builder() .appName("Spark Sql basic example") .config...原创 2018-10-11 09:22:19 · 18389 阅读 · 1 评论 -
初学Kafka遇到的问题:Wrong request type 18、 Error reading field 'topic_metadata':...
初学Kafka遇到的问题:Wrong request type 18、 Error reading field ‘topic_metadata’: …其实这两个错误的根本原因是一致的,都是Linux上的版本号与maven里面kakfa-client的版本号不对应的问题:我在linux上面的kafka的版本号是:kafka_2.10-0.8.2.1先给出第一个错误:这时候在pom文件里面配...原创 2018-10-26 09:33:00 · 5019 阅读 · 2 评论 -
Linux上有关ssh的那个问题
Linux系统环境信息读取的顺序,ssh执行远程脚本的坑、gradle远程部署的坑问题描述:1.hadoop集群一台一台的启动太麻烦了,因此copy个脚本(内容:通过ssh连接每台服务器,启动对应的服务),希望在一台机器上执行脚本,可以将整个集群启动、但不幸的是:当前机器是启动成功的,但其他的机器都是失败的并且显示没有对应的环境变量,很奇怪?2. 项目中使用到了gradle,里面通过’or...原创 2019-03-09 19:14:21 · 320 阅读 · 0 评论 -
scala、spark有关环境的一些坑
今天重新学习了下spark,出现了一系列的环境问题,总结一下,希望以后小伙伴们不要踩坑Caused by: java.lang.ClassNotFoundException: org.apache.spark:出现这个问题的原因是pom文件配置问题,我在pom中关于spark、scala、hadoop的依赖里面使用了这个标签provided表明该包只在编译和测试的时候用,所以在启...原创 2019-03-15 09:45:00 · 680 阅读 · 0 评论 -
spark shell 启动出现:Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState':
Error while instantiating ‘org.apache.spark.sql.hive.HiveSessionState’:解决方法:sudo chmod -R 777 /tmp/hive/原创 2019-03-16 16:31:32 · 3685 阅读 · 2 评论 -
Hadoop生态圈(三驾马车+ZK+Hive+Sqoop+Flume)复习脑图 version-1.0
这几天一直在复习前段日子自学的大数据视频教程,现在算是把Hadoop第一阶段的脑图整理出来了,这个脑图大部分都是针对理论知识(比较重要的都有了),没有实践,毕竟复习面试使用的么……哈哈链接:https://pan.baidu.com/s/1EJr1J2crzB_Gpbvx8Wu2xw提取码:gh8d...原创 2019-03-12 19:23:52 · 818 阅读 · 0 评论 -
Hadoop的CDH版本是什么?
Hadoop的CDH版本是什么?1.Apache社区版优点:完全开源免费 社区活跃 文档、资料详实缺点:版本管理比较混乱,各种版本层出不穷,很难选择,选择生态组件时需要大量考虑兼容性问题、版本匹配问题、组件冲突问题、编译问题等。集群的部署安装配置复杂,需要编写大量配置文件,分发到每台节点,容易出错,效率低。集群运维复杂,需要安装第三方软件辅助。2.第三方发行版(CD...转载 2019-03-21 21:27:31 · 8227 阅读 · 0 评论 -
两个容量很大的数组a,b(已经排好序了),求两个数组的交集
题目:两个容量很大的数组(已经排好序了),求两个数组的交集穷举法双层for循环进行遍历,外层a数组中的每一个值与内层b数组中的每一个值进行比较,找到两个数组的交集。进阶一:题中已经说了是排好序的数组,我们利用这个条件进行优化:两个数组 ——> a:{4,6,7,……} b:{2,3,5,……}想一想,a数组第一个是4,第一次比较,我们并不需要4与b中所有的数组全...原创 2019-05-11 19:49:57 · 2063 阅读 · 0 评论