大数据
文章平均质量分 91
豆沙糕
这个作者很懒,什么都没留下…
展开
-
Doris全方位教程+应用实例
hll 列类型,不需要指定长度和默认值、 长度根据数据的聚合 程度系统内控制,并且 HLL 列只能通过配套的 hll_union_agg 、 Hll_cardinality、hll_hash 进行查询或使用。缺点:这两种对hbase支持的都不好,presto 不支持,但是对hdfs、hive兼容性很好,其实这也是顺理成章的,所以数据源的处理很重要,针对hbase的二级索引查询可以用phoenix,效果也不错。在 Doris 中,我们将用户通过建表语句创建出来的表称为 Base 表(Base Table)。原创 2024-07-24 10:41:45 · 1303 阅读 · 0 评论 -
hudi数据湖万字全方位教程+应用示例
hudi全方位教程原创 2024-07-11 10:51:35 · 666 阅读 · 0 评论 -
spark报错:java.nio.channels.ClosedChannelException & Couldn't connect to leader 处理
上周修改了一个程序,上线后每过一段时间就会报错,并且直接卡住,不会自动结束。报错信息如下:19-10-27 19:01:07 ERROR org.apache.spark.executor.Executor:91 - Exception in task 6.0 in stage 7.0 (TID 80)java.nio.channels.ClosedChannelException.....原创 2019-10-29 16:25:18 · 1366 阅读 · 0 评论 -
记一次Spark读取多个kudu表的优化经历
程序原逻辑是从一张kudu表读数据进行后续统计,需求是修改为从另外两张不同的kudu表读数据,合并两张表的数据进行后续统计。于是修改的逻辑简化后是如下两个步骤:1、从两张kudu表读数据,并且分别注册成临时表import org.apache.kudu.spark.kudu._val kudu_table1 = spark.read.options( ...原创 2019-10-24 18:01:12 · 1777 阅读 · 0 评论 -
Hadoop伪分布式环境搭建
对于初学者而言,自己搭建一个大数据集群环境是一个必要步骤,也算是开始学习的第一步。即使对于已经工作的小伙伴们,有时不方便使用公司的测试/正式集群环境时,这时候自己搭建的集群也能派上用场 (重点是可以随便玩,玩坏了铲掉重新搭建即可)。现在分享一个自己搭建Hadoop伪分布式环境的步骤(伪分布式表示使用一台机器模拟n台机器组成的集群,简单方便代价小),按以下步骤我已经装了N遍,所以基本上不会...原创 2019-02-22 15:40:21 · 546 阅读 · 5 评论 -
Hive任务运行常见报错及解决方式汇总
有的时候hive任务运行到一半,会报错并强制结束,下面对工作中经常遇到的报错及解决措施进行一个汇总,因为都是平时遇到了临时简单记录一下,所以没有当时的报错截图,但是主要报错内容是有的。以下报错内容均为从yarn任务监控页面(http://主机名:8088/cluster)中查到的运行日志中打印的具体报错,直接查看命令行或者其他运行日志,可能只能看到return code 1 或者ret...原创 2019-02-22 16:35:49 · 8288 阅读 · 2 评论 -
Spark系列(一) —— SparkCore详解
1. =》Spark 引入首先看一下MapReudce 计算和 Spark 计算的区别:MapReudce : 分布式计算框架缺点:执行速度慢,shuffle 机制:数据需要输出到磁盘,而且每次 shuffle 都需要进行排序操作框架的机制:只有 map 和 reduce 两个算子,对于比较复杂的任务,需要构建多个job来执行,当存在 job 依赖的时候,job 之间的数据...原创 2019-03-15 11:23:32 · 6027 阅读 · 0 评论