大数据
上官沐雪
第一步:减少愚蠢的需求。
第二步:努力删减部件或过程
第三步:简化和优化设计。
第四步:加速迭代周期
第五步:自动化
展开
-
docker常用命令
2、镜像指令nginx镜像:doceker hub3、启动容器指令(镜像运行起来即为容器)启动nginx应用容器,并映射88端口原创 2022-06-27 20:52:27 · 542 阅读 · 0 评论 -
dataWorks定时调度传参
dataWorks定时调度传参## maxComputer自带的参数,昨天的日期{yyyymmdd} 花括号dt='${bdp.system.bizdate}'## maxComputer自带的参数,今天的日期[yyyymmdd] 中括号dt='$[bdp.system.bizdate]'## 任务的定时时间,格式为yyyymmddhh24miss$cyctime ## 当前日期,格式为yyyymmdd$gmtdate## 业务月份,格式为yyyymm。$bizmonth原创 2021-10-09 19:57:59 · 2814 阅读 · 0 评论 -
dataWorks常用调优参数
总结了一下dataWorks常用参数方便同学们使用:## 查看项目数据类型版本。setproject; ## 允许全表扫描set odps.sql.allow.fullscan=true;##允许整个项目都可全表扫描setproject odps.sql.allow.fullscan=true;##文件被合并的最大阈值set odps.sql.mapper.merge.limit.size=64;##Map端输入的控制set odps.sql.mapper.split.size原创 2021-10-09 19:53:30 · 2237 阅读 · 0 评论 -
二. spark相关参数的推导
spark相关参数的推导1. 集群配置10 Nodes16 cores per Node64GB RAM per Node1.1 内存比较大的情况下:第一,根据上面的参数建议,我们给每个Executor分配5个core即executor-cores=5,这样对HDFS的吞吐量会比较友好。第二,为后台进程留一个core,则每个节点可用的core数是16 - 1 = 15。所以集群总的可用core数是15 x 10 = 150。第三,每个节点上的Executor数就是 15 / 5 = 3,集群原创 2021-06-01 13:10:04 · 185 阅读 · 0 评论 -
使用bulkload方式加载数据到HBase(三种方式)
使用spark把hive数据bulkload到HBase场景:最近有大量数据存在hive里,由于业务需呀,把hive数据放到HBase里于是想到如下三种方案:1.使用hive表映射hbaseCREATE external TABLE `hbase_website`( `key` string, `ocid` string, `companyname` string, `createtime` bigint, `updatetime` bigint, `sitenam原创 2021-06-01 10:31:41 · 1872 阅读 · 0 评论