在dss中运行scala任务报java.lang.NullPointerException: null 在dss中运行scala任务报java.lang.NullPointerException: null
Hive处理Json相关数据 get_json_object 函数此函数为常用函数,可以取出json数据中的相应的字段的数值-- get_json_object(json,'$.name') as nameselect get_json_object('{"name":"zj","age":25}','$.name') as name ,get_json_object('{"name":"zj","age":25}','$.age') as age;select get_json_object('{"name":"zj","a
Hive 表字段数据修改 hive字段信息修改修改表注释ALTER TABLE table1 SET TBLPROPERTIES('comment' = '每日背书企业成交明细(去重)');增加字段alter table table1 add columns(bonus varchar(255) comment '奖金');alter table table1 add columns(bonus varchar(255) comment '奖金') cascade; -- 适用于分区表联级机制cascadeca
Spark | HDFS 本地调式时出现:Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continu 出现原因21/11/16 15:13:17 WARN BlockReaderFactory: I/O error constructing remote block reader.java.net.ConnectException: Connection timed out: no further information......Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continue. ja
Hive UDF GDF UDTF编写与实现 hive 自定义函数实现UDF | GDF | UDTF 区别UDF:一进一出(hive3 已经废除)GDF:一进一出(hive3 支持的GDF)UDTF:一进多出业务前景测试数据为:字符串(JSON数组格式 [{},{},{}] )[{\"title\": \"转让背书\", \"endorseName\": \"山东泰山钢铁集团有限公司\", \"endorseeName\": \"山东汶汇港物流有限公司\", \"isTransfer\": \"可以转让\", \"endorseDa
centos6 的 hadoop三台集群的搭建 三台的hadoop分布式集群的搭建:如果你要部署一个高可用的完全分布式集群请参照:我的博客:Hadoop完全分布式集群搭建过程(HA高可用)https://blog.csdn.net/hello_heheha/article/details/998883301,修改主机名分别为:master slave1 slave22,配置/ etc / hosts(三台都要修改)...
大数据面试题汇总 大数据面试题-20200607简答题+面试题HashMap和HashTable的区别Scla中的Case class作用数据仓库分层概念数据分层概念数据分层为倒三角,从上到下依次为ODS层(原始数据层)、DWD层(明细数据层)、DWS层(服务数据层)、ADS层(数据应用层),数据量是从多到少,从复杂化到简单化。ODS层:原始数据层、存放原始数据,直接加载原始日志信息,数据, 数据保持原貌不做处理DWD层(DWI层):结构和粒度与原始数据保持一致,对ODS层数据进行数据清洗(去空值、脏数据、
Elasticsearch学习笔记 ES简介Elasticsearch:全文检索引擎,快速存储,检索、和分析海量数据底层是由Lucene支持Lucene开放的源代码的全文检索引擎工具包,不是完整的全文检索引擎,而是一个全文检索的引擎架构,特点:完整的查询完整的索引部分具有文本分析Lucene提供了一个简单缺强大的应用程序接口ES基本概念P:Primary shard 主分片R:Reaplication shard 备用分片一个cluster存在一或者多个node组成,每个集群都有一个cluster.n
join和union的区别 join和union的区别union和join是需要联合多张表时常见的关联词,join:两张表做交连后里面条件相同的部分记录产生一个记录集,union:union是产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集 。join的连接方式(left join\left outer join) \ right join \right outer join \inner join......
Spark的ReduceByKey和GroupByKey的区别 Spark的ReduceByKey和GroupByKey的区别ReduceByKey和GroupByKey其实和Hadoop的MapReduce中的是否带有combinner一样的道理,无论是ReduceBuKey还是GroupByKey返回的结果都是RDD。ReduceByKey:说白了就是带有Commbiner的操作,也就是说ReduceBykey会减少Map端的输出,在Map端输出的时候...
Maven设置指定jar包依赖版本信息 我们在配置Spark core 的 maven依赖的时候jackson-module-scala_2.11的版本冲突,解决办法如下:<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</ar...