大数据学习整理资料 3,Hive(主要是SQL和一些特性,窗口函数,分区分桶,UDF,工作中用的很多)2,MapReduce(理解原理流程思想,大数据处理的核心思想,实际工作不用)4,Yarn(懂原理就行,实际就是简单的提交任务,查看资源分配情况)1,HDFS(懂原理就行,会基础命令)6,SQL(刷一些热门的sql题目)
SparkStreaming直连kafka报错:requirement failed: Failed to get records for spark-executor-xxx topic_xxxx 依次排查后,确认是kafka服务端网络问题,因为sparkStreaming连接kafka走得是公网,数据量大网络不稳定是常有的情况,由于超过spark.streaming.kafka.consumer.poll.ms设置的120s时长,task没获取到对应的topic分区的数据,就会导致类似连接超时的异常,那这个task就fail掉了。:奇了怪了,这个任务之前一直在生产上跑的好好的,突然今天发现大批量的task在pending中,而且每个批次的job执行的时间都超过了窗口时间。
SAP sq01,sq02,sq03创建query报表 拖动A表KEY字段到B表对应KEY字段可新建关联。选项2:系统将把所有表(SPFLI,SFLIGHT)的所有字段关键字段放到信息集对应的字段组。选项1:系统将自动把所有表(SPFLI,SFLIGHT)的所有字段放到信息集对应的字段组。添加附加字段,点击Extras(附加)按钮-->Selections-->Create。分配自定义字段到字段组,右键选择自己输出的字段组,然后保存信息集并退出。填写信息集名称,基础Query的基础数据库表,然后点击保存按钮。输入选择字段描述信息和引用的表字段,字段展示顺序。
spark history server异常 现象:spark 日志文件突然新增了很多.hprof文件,发现是history Server服务一直启动oom异常。定位配置参数发现spark历史任务日志太多,一直没清理。
hive SQL struct类型和Array<struct>类型转json字符串 数据格式:default_address是struct类型,address是Array<struct>类型:例如:array<struct<id:string,customer_id:string>>目标格式:[ { "id": "1111", "customer_id": "2222" }, { "id": "3333", "customer_id": "444
MySQL8递归查询 表:人员表:t_sys_user组织机构表:t_sys_organization组织机构人员关系表:t_sys_user_organization需求:传入一个组织机构id查询该机构下面所有的人员SQL:with recursive t as( SELECT * FROM t_sys_organization WHERE organization_id='150030595752464384' UNION ALL SELECT c.* FROM t_sys_o