StructedStreaming消费Kafka数据突然存储不到HDFS 问题描述:StructedStreaming消费Kafka数据存储到HDFS中,以前正常存储,突然就存储不进去了,可以新建文件夹,但是数据写入不进去了。分析:通过流写出到控制台,能消费数据,说明消费正常,但是就是写不进HDFS中,说明写时不能触发HDFS保存。/*** 消费数据,写到控制台*/val query = spark.sql(sql) .writeStream .format("console") .outputMode("append") .start
大数据面试宝典之JVM篇 哈喽,亲爱的小伙伴们,大家好,我是猿天歌,相信大家都是有一定研发经验,也都有一定调优经历,但是经常在面试时,会有一定的困扰:比如说面试前突击记忆一下JVM原理等理论,然后面试时问你在实际项目中如何进行JVM参数调优、如何解决OOM或者GC等问题,然后一脸茫然。或者说,因为工作职责的分配,很少去接触JVM调优等,然后面试时又经常会被问到。我为什么会出JVM面试题专栏呢?首先,肯定是面试的需要,大家都知道入职一线大厂 不光关注技术的宽广度,还需要考察技术的深度,尤其是现在技术内卷的时代,大部分公司面试时这都是
hive问题-return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask 执行hive sql时遇到问题:FAILED:Execution Error,return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask这个其实一般是个hive内部错误,处理这个问题就需要找日志了;找日志hive.log(比较简略)hive.log ===> 缺省情况下 /tmp/root/hive.log (不然就在你hive-site.conf配置的日志路径里)我这里在/tmp/root目录下去里面看了日志,没
hadoop群起集群脚本 vim hadooponekey.sh#!/bin/bashif [ $# -lt 1 ]then echo "No Args Input..." exit ;ficase $1 in "start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------" ssh had
海量实时广告流平台(DSP广告系统)架构设计与实践 1. 项目背景在互联网上,流量=变现流量变现的⽅式有很多种,不同的产品/平台,变现模式不一样。按大类分,无外乎三类:卖广告、卖产品/服务、增值服务。今天重点说说广告的变现模式,并主要解决两个问题:⼴告从何来?怎样的广告策略才能让流量变现最大化?广告来源可以有很多渠道,分两个大类:直投客户:来⾃自己销售,或代理公司。这⾥的直投是指直接在流量⽅广告系统投放,可以自建也可以使用第三方⼴告系统。在变现上,DAU千万级以上的产品就不用过于发愁了,不管是自建销售队伍还是走代理公司,一般
NIO原理 网络体系:OSI IEEEIO体系本地(local)IO字节流:InputStream、OutputStream字符流:Reader、Writer网络(远程)IONIO与IO区别:NIO通道和缓冲区:通道(Channel):表示打开IO设备(例如:文件、套接字Socket)的连接。若需要NIO系统,需要获取用于连接IO设备的通道以及用于容纳数据的缓冲区(Buffer)。然后操作缓冲区,对数据进行处理。缓冲区(Buffer):一个用于特定基本数据类型的容器。由java.nio包定义的,所
数据湖 - 学习笔记(一) 1. 企业的数据困扰互联网的兴起和数据孤岛非结构化数据保留原始数据集中存储、成本可控、使用简单,能够支持任意格式输入并拥有分析处理能力2. 数据湖理论2.1写时模式VS读时模式写时模式:数据在写入之前,就需要定义好数据的schema,数据按照schema的定义写入数据库-表:预先定义好表结构,创建好库数据库、数据仓库、数据集市 或者具体的一些框架如:Mysql,Redis, HBase等均是写时模式,即数据在写入之前就需要预先有Schema定义好才可以。读时模式:数据在写