数仓4.0
啥好吃的啊给我来一口
这个作者很懒,什么都没留下…
展开
-
Hive快速入门
使用分隔符拼接字符串,结果为www.itcast.cn。2.通过describe function extended funcname(函数名)来查看函数的使用方式。返回两个字符串拼接的结果。返回字符串反转的结果。原创 2022-10-04 15:36:09 · 91 阅读 · 0 评论 -
数仓(四)
presto能够处理PB级别的海量数据分析,但presto并不是吧PB级数据都放在内存中计算的,是边读数据边计算,再清内存,再读数据再计算,这种耗的内存并不高。但是连表查,就可能产生大量的临时数据,因此速度会变慢。早在2015年eBay的生产环境中就能支持百亿记录的秒级查询,之后在移动的应用场景中又有了千亿记录秒级查询的案例。3)亚秒级响应:Kylin拥有优异的查询相应速度,这点得益于预计算,很多复杂的计算,比如连接、聚合,在离线的预计算过程中就已经完成,这大大降低了查询时刻所需的计算量,提高了响应速度。原创 2022-09-04 19:41:59 · 154 阅读 · 0 评论 -
全流程调度
配置azkaban.properties文件和azkaban-user.xml文件,在/opt/module/azkaban/azkaban-web路径下启动AzkabanwebServer,bin/start-web.sh(注意这里要使用cluster.sh stop关闭采集通道)在路径/opt/module/azkaban/azkaban-exec/下启动AzkabanExecutorServer,bin/start-exec.sh。解压到/opt/module/azkaban目录下。原创 2022-08-23 01:42:43 · 384 阅读 · 0 评论 -
数仓环境搭建
1.将/opt/module/spark/conf/目录下spark-env.sh.template文件改成spark-env.sh,之后添加内容export SPARK_DIST_CLASSPATH=$(hadoop classpath);进入/opt/module/hadoop-3.1.3/etc/hadoop中,修改core-site.xml文件,添加内容。2.进入/opt/module/hive/conf目录下的hive-site.xml,加上下面的内容。再次执行insert操作即可成功。原创 2022-08-21 16:35:12 · 92 阅读 · 0 评论 -
数仓(三)
启动和关闭集群时出现了一系列问题,原本不需要多次输入密码,结果不知道修改了哪里的权限导致有些集群启动需要输入密码,查看集群状态也需要输入密码。解决方法:进入/opt/module/hadoop-3.1.3/etc/hadoop中,编辑core-site.xml文件。将电脑文件拖拽入xshell中(预打算放入/opt/software中)传输失败。在hdfs页面对文件进行删除操作时,删除失败且报错。步骤三:切换成root用户重复步骤一和二。猜想这应该是权限问题和免密设置问题。失败原因:文件修改权限不够。...原创 2022-08-13 21:39:40 · 337 阅读 · 0 评论 -
数仓(二)
在hadoop102的/home/cat 目录下创建bin目录,这样脚本可以在服务器任何目录执行。通过终端输入用户名、密码,登录系统之后得到的就是一个login shell。标准输出1:输出到屏幕(即控制台) /proc/self/fd/1。错误输出2:输出到屏幕(即控制台) /proc/self/fd/2。标准输入0:从键盘获得输入 /proc/self/fd/0。(1)生成均衡计划(我们只有一块磁盘,不会生成计划)(3)查看当前均衡任务的执行情况。...原创 2022-08-08 00:51:03 · 299 阅读 · 0 评论