大数据
数据处理,大数据架构,大数据相关开发
hadoove
这个作者很懒,什么都没留下…
展开
-
spark streaming与kafka整合
Spark 2.2和2.3支持0.8和0.10两种Kafka API,而且0.8版本的API可以和Kafka Broker 0.9 及0.10兼容,但0.10版本的API不能与Kakka 0.8兼容。两个版本Kafka API的功能对比如下:由此可知,相对于0.8版本,Kafka API 0.10版本的主要变化在于:1)只支持Direct DStream 的连接模式,基于Receive...原创 2019-01-30 09:07:49 · 696 阅读 · 0 评论 -
Kafka offset管理
Kafka offset管理消费者在消费的过程中需要记录自己消费了多少数据,即消费 Offset。Kafka Offset 是Consumer Position,与 Broker 和 Producer 都无关。每个 Consumer Group、每个 Topic 的每个Partition 都有各自的 Offset,如下图所示。通常由如下几种 Kafka Offset 的管理方式:S...原创 2019-01-10 09:40:37 · 6074 阅读 · 0 评论 -
远程IDE无法连接kudu
客户端测试kudu出错Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 1 times, most recent failure:Lost task 0.0 in stage 2.0 (TID 67,...原创 2018-12-28 14:21:49 · 3235 阅读 · 0 评论 -
通过jupyter远程连接CDH(pyspark)
1. 在CDH上安装Anaconda Parcel(离线或者远程安装anaconda parcel)下载Anaconda Parcels,下载符合自己的版本及其sha文件将下载好的文件上传至你的CDH parcels库,一般位置在 /opt/cloudera/parcel-repo进入CDH管理界面,进行相关配置!配置界面刷新之后就能够看到Anaconda已下载成功。然后分发...原创 2018-12-12 15:58:53 · 1684 阅读 · 0 评论 -
HBase对比HDFS
什么是HDFS(Hadoop分布式文件系统):HDFS允许以分布式和冗余方式存储大量数据。HDFS组件 • NameNode • DataNode NameNode:NameNode可以被视为系统的管理者。它维护系统文件树以及系统中存在的所有文件和目录的元数据。其中“命名空间镜像(Namespace image)”和“编辑日志”用于存储元数据信息。 Namenode包含所...原创 2018-08-24 16:12:39 · 21916 阅读 · 3 评论 -
Spark Streaming-Kafka实例(Python与Java版本)
本文实现kafka与Spark Streaming之间的通信,其中Kafka端producer实现使用Java,Spark Streaming端Consumer使用Python实现。首先安装kafka与spark streaming环境,kafka测试连通测试参考上文,本文的实验环境都为本地单机版本。Kafkaimport org.apache.kafka.clients.produc...原创 2018-08-17 11:18:42 · 999 阅读 · 0 评论