大数据
hadoove
这个作者很懒,什么都没留下…
展开
-
kudu查询调优
问题描述kudu集群在导入大量历史数据之后,在Impala/kudu上查询变慢,之前集群查询的时间基本上在2秒左右,但是现在查询时间延长到80秒到90秒左右。这个查询时间对于任何应用都是无法忍受的。问题定位通过CDH的CM上的Impala组件中的SQL语句统计信息发现,SQL查询时间主要FragmentF00阶段的5号节点KUDU扫表,其余几个节点查询扫描时间正常。1.首先比较各个节点之间的数据扫描记录,确定是否存在数据倾斜问题。通过比较几个节点之间的扫描记录的大小,发现各个几点扫描的记原创 2020-12-19 21:15:13 · 2246 阅读 · 1 评论 -
Spark Streaming-Kafka实例(Python与Java版本)
本文实现kafka与Spark Streaming之间的通信,其中Kafka端producer实现使用Java,Spark Streaming端Consumer使用Python实现。首先安装kafka与spark streaming环境,kafka测试连通测试参考上文,本文的实验环境都为本地单机版本。Kafkaimport org.apache.kafka.clients.produc...原创 2018-08-17 11:18:42 · 975 阅读 · 0 评论 -
启动HIVE报错Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata
https://ask.hellobi.com/blog/bigdata/10251解决办法:[hadoop@master2 conf]$ schematool -dbType mysql -initSchema格式化mysql原创 2018-08-28 15:17:31 · 4828 阅读 · 0 评论 -
RPC远程调用
客户端通过定义接口,通过动态代理的方式向服务端请求运行结果,服务端通过解析字符串,来解析所要调用接口、方法、参数,并将接口实现的结果通过Socket的方式返回给客户端。1. 服务端将接口通过map的方式映射成方法名和接口类,并启动socket连接。package server;public interface ServerCenter { public void st...原创 2018-11-19 16:32:10 · 202 阅读 · 0 评论 -
通过jupyter远程连接CDH(pyspark)
1. 在CDH上安装Anaconda Parcel(离线或者远程安装anaconda parcel)下载Anaconda Parcels,下载符合自己的版本及其sha文件将下载好的文件上传至你的CDH parcels库,一般位置在 /opt/cloudera/parcel-repo进入CDH管理界面,进行相关配置!配置界面刷新之后就能够看到Anaconda已下载成功。然后分发...原创 2018-12-12 15:58:53 · 1653 阅读 · 0 评论 -
Kafka offset管理
Kafka offset管理消费者在消费的过程中需要记录自己消费了多少数据,即消费 Offset。Kafka Offset 是Consumer Position,与 Broker 和 Producer 都无关。每个 Consumer Group、每个 Topic 的每个Partition 都有各自的 Offset,如下图所示。通常由如下几种 Kafka Offset 的管理方式:S...原创 2019-01-10 09:40:37 · 6048 阅读 · 0 评论 -
HBase对比HDFS
什么是HDFS(Hadoop分布式文件系统):HDFS允许以分布式和冗余方式存储大量数据。HDFS组件 • NameNode • DataNode NameNode:NameNode可以被视为系统的管理者。它维护系统文件树以及系统中存在的所有文件和目录的元数据。其中“命名空间镜像(Namespace image)”和“编辑日志”用于存储元数据信息。 Namenode包含所...原创 2018-08-24 16:12:39 · 21813 阅读 · 3 评论 -
spark streaming与kafka整合
Spark 2.2和2.3支持0.8和0.10两种Kafka API,而且0.8版本的API可以和Kafka Broker 0.9 及0.10兼容,但0.10版本的API不能与Kakka 0.8兼容。两个版本Kafka API的功能对比如下:由此可知,相对于0.8版本,Kafka API 0.10版本的主要变化在于:1)只支持Direct DStream 的连接模式,基于Receive...原创 2019-01-30 09:07:49 · 678 阅读 · 0 评论