大数据
文章平均质量分 76
包括大数据生态各组件搭建、命令行使用、API使用、学习笔记、错误等
总要冲动一次
你过的好与不好是自己的选择
你过的快不快乐是自己的决定
展开
-
记一次服务器异常掉电,导致HBase Master is initializing 问题处理
服务器掉电后重启服务器,并重启Hadoop、Zookeeper、HBase服务后,进程均一切正常,但是在HBase Web界面查看不到一张表,包括元数据表。使用 shell 命令扫描数据表提示表不存在错误。看下Master的日志,发现一条WARN日志:hbase:namespace,,1602737534746.41cb240b37c7ba2e67a1bff035799b61. is NOT online; state={41cb240b37c7ba2e67a1bff035799b61 state=OPE原创 2022-06-22 16:13:28 · 1491 阅读 · 0 评论 -
时间轮在Netty、Kafka中的应用
时间轮是一个高性能、低消耗的数据结构,它适合用非准实时,延迟的短平快任务,例如心跳检测。在Netty、Kafka、Zookeeper中都有使用。时间轮可通过时间与任务存储分离的形式,轻松实现百亿级海量任务调度。Netty动辄管理100w+的连接,每一个连接都会有很多超时任务。比如发送超时、心跳检测间隔等,如果每一个定时任务都启动一个Timer,不仅低效,而且会消耗大量的资源。其他一些属性:概括时间轮工作流程(阅读Netty3.10.6)源码代码做了删减,只体现重点时间轮构造器:初始化了时间轮大小、每原创 2022-06-06 16:23:39 · 791 阅读 · 1 评论 -
关于kafka的配置acks和min.insync.replicas详解,通俗易懂 一看就会
acks描述:producer 发送数据服务端的响应级别acks = all/-1 : 表示kafka isr列表中所有的副本同步数据成功,才返回消息给客户端acks = 0 :表示客户端只管发送数据,不管服务端接收数据的任何情况acks = 1 :表示客户端发送数据后,需要在服务端 leader 副本写入数据成功后,返回响应min.insync.replicas描述:Kafka ISR 列表中最小同步副本数默认 min.insync.replicas = 1当 acks = all原创 2022-03-28 11:16:19 · 14236 阅读 · 3 评论 -
spark.SparkContext: Error initializing SparkContext.
spark.SparkContext: Error initializing SparkContext.报错:(base) [bigdata@worker01 ~]$ spark2-shell Setting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).20/06/30 15:40:49 ERROR sp原创 2020-06-30 15:52:49 · 1824 阅读 · 0 评论 -
出错-运行spark-shell时报错:Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'
第一次运行spark-shell时报错报错内容如下:[root@ducking spark-2.1.1]# spark-shell Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesSetting default log level to "WARN".To adjust logg...原创 2020-01-27 16:13:38 · 1338 阅读 · 0 评论 -
概念:大数据"之"各种工具学习笔记
大数据:海量数据的传输、存储和计算。大数据之Hadoop:Hadoop之HDFS:Hadoop之MapReduce:Hadoop之yarn:大数据之Hive:由Facebook开源,用于解决海量结构化日志的数据统计框架。他是做数据分析的,不是存储框架,他的数据存放在HDFS。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。...原创 2020-01-02 22:56:47 · 417 阅读 · 0 评论 -
Kafka 云服务器分别配置内外网访问
项目场景:在 docker 部署或云服务器上部署,需要内外网分流的时候。在Windows上连接阿里云服务器上部署的Kafka服务报错问题描述:Idea中创建Consumer报错:java.lang.IllegalStateException: No entry found for connection 2147483609解决方案:方案一:在客户端机器上修改hosts文件,配置上kafka所在服务器的hosts文件内的映射关系。这显然不是明智之举,不安全且麻烦。方案二:在公司内网部原创 2022-01-11 10:42:44 · 3891 阅读 · 0 评论 -
ZooKeeper架构&CAP理论
Zookeeper架构ZooKeeper是一种高性能,可扩展的服务,虽然读取速度比写入快,但是读取和写入操作都设计的极为快速,这样做的原因是在读取的情况下,ZooKeeper可能会提供较旧的数据为分布式应用提供高效、高可用的分布式协调服务,提供了诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知和分布式锁等分布式基础服务Zab协议是Zookeeper保证数据一致性的核心算法,Zab借鉴了Paxos算法,但又不像Paxos那样,是一种通用的分布式一致性算法,基于该协议,zk实现了一种主备模型(即L原创 2021-12-08 10:15:33 · 556 阅读 · 2 评论 -
Superset免登录访问分享的仪表(设置SUPERSET可以匿名访问图表)
目标:匿名(不需要登录)即可访问superset图表(我的环境是在docker中)一,superset角色介绍角色权限介绍Admin:拥有所有权限。Alpha:能访问所有数据源,增加或者更改数据源,但不能给更改其他用户权限。Gamma:必须结合其他能访问数据源的角色才能访问数据。这个角色所能访问的切片和看板,也是基于能访问数据源所创建的切片和看板。sql_lab:能访问SQL Lab菜单。Public:默认没有任何权限。二、具体实现1.最终目标:使grama和public权限一致(默.转载 2021-10-15 11:34:15 · 4477 阅读 · 0 评论 -
从零开始搭建CDH6.2操作手册(离线版)
一、预备阶段1、集群机器2、安装包jdk:oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpmmysql:mysql-5.7.28.zipmysql-connector-java-5.1.47.tar.gzcloudera-repos-6.2.0:cloudera-manager-agent-6.2.0-968826.el7.x86_64.rpmc原创 2021-08-20 11:32:15 · 1465 阅读 · 0 评论 -
修改端口(CDH)cloudera manager默认端口7180
生产环境规则多!要求端口只能使用10000以上,所以7180需要修改,还只能通过元数据库修改,这里我使用的元数据库是MySql。修改方法一:后台数据库修改(WEB无法登陆时使用该方法)1、登录mysql数据库mysql -uroot -pxxxx2、切换数据库(CM的元数据库)mysql> use cmf;3、查看默认端口mysql> select * from CONFIGS where ATTR='http_port';+-----------+---------+---原创 2021-03-17 15:00:05 · 2030 阅读 · 0 评论