spark
文章平均质量分 67
spark知识
键盘上的艺术家w
努力奋斗
展开
-
spark-操作hbase 2种方式
一.spark操作hbase的方式 方式1.通过hive外部表映射成hbase表,然后通过spark-sql可以查询hbase表。 方式2.通过创建HadoopRdd也可以查询hbase表。二.方式区别 方式1.通过spark操作hive的hbase映射表 会产生全表扫描,无法通过rowkey来过滤数据。 方式2.通过创建HadoopRdd的方式可以设置Startrow 和 endRow来设置数据的范围,这样可以先过滤一部分数据,不需要将所有hbase的数据读入spark再过...原创 2021-04-12 18:02:34 · 3355 阅读 · 0 评论 -
spark-streaming 消费带有kerberos认证的kafka
1.代码package security.view.modelimport java.util.Propertiesimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}import org.apache.kafka.common.serialization.StringDeserialize原创 2020-07-10 16:45:18 · 2368 阅读 · 0 评论 -
spark 解决提交任务是 第三方依赖的问题
1解决我们自己模块的依赖在提交spark任务的时候用 –jars参数加上jar路径。路径用逗号隔开。2解决第三方依赖(保证每一个节点都有这个目录)步骤创建一个目录存放第三方依赖 [root@master spark]# mkdir myjars 2.将所有jar放入该目录 3.修改spark配置文件......原创 2019-04-12 15:41:56 · 1398 阅读 · 1 评论