自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 报错:java.lang.RuntimeException: java.lang.IllegalArgumentException: java.net.UnknownHostException

出现这种问题多半是windows找不到linux主机。修改目录 C:\Windows\System32\drivers\etc 下的hosts 文件查看确认。

2021-01-25 16:16:44 1108

原创 开窗函数

开窗函数有两类:一类是聚合开窗函数,一类是排序开窗函数.聚合函数count() over(partition by ... order by ...)max() over(partition by ... order by ...)min() over(partition by ... order by ...)sum() over(partition by ... order by ...)avg() over(partition by ... order by ...)排序函数

2020-11-30 14:26:38 407

原创 Presto安装介绍及使用

Presto简介Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。不是Mysql、Oracle的代替品,也不能用来处理在线事务(OLAP)。Presto架构Presto由一个Connrdinator和多个Worker组成。Presto优缺点优点:Presto基于内存运算,减少了硬盘IO,计算更快。 能够连接多个数据源,跨数据源连表查,从Hive查询大量网站访问记

2020-11-26 15:08:47 1225

转载 常见人资面试题——面试技巧

1、请你自我介绍一下你自己?回答提示:一般人回答这个问题过于平常,只说姓名、年龄、爱好、工作经验,这些在简历上都有。其实,企业最希望知道的是求职者能否胜任工作,包括:最强的技能、最深入研究的知识领域、个性中最积极的部分、做过的最成功的事,主要的成就等,这些都可以和学习无关,也可以和学习有关,但要突出积极的个性和做事的能力,说得合情合理企业才会相信。企业很重视一个人的礼貌,求职者要尊重考官,在回答每个问题之后都说一句“谢谢”,企业喜欢有礼貌的求职者。2、你觉得你个性上最大的优点是什么?回答提示:沉着冷静

2020-11-26 14:23:51 1247

原创 Superset安装配置及应用

目录1. Superset应用场景2. Superset安装2.1 安装Python环境2.2安装Miniconda2.3 创建Python3.6环境2.4 安装Superset2.5 启动Superset3.Superset使用3.1 对接MySQL数据源3.2 数据源配置3.3 制作仪表盘ApacheSuperset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分...

2020-11-19 15:38:04 1043

原创 sql面试题——手写sql案例(二))

1. 求:每个店铺的UV(访客数)每个店铺的访问次数top3有50W个京东店铺,每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志,访问日志存储的表名为Visit,访客的用户id为user_id,被访问的店铺名称为shop,请统计:1)每个店铺的UV(访客数)2)每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数数据:u1 au2 bu1 bu1 au3 cu4 bu1 au2 cu5 bu4 bu6 cu2 cu1 bu2 a

2020-11-16 19:00:34 1024

原创 mysql——cast()函数

cast函数用于某种数据类型的表达式显式转换为另一种数据类型,cast()函数的参数是一个表达式,它包括用as关键字分隔的源值和目标数据类型。语法:CAST(expression AS data_type)expression:任何有效的SQLService表达式AS:用于分隔两个参数,在AS之前的是要处理的数据,在AS之后是要转换的数据类型。data_type:目标系统所提供的数据类型,包括bigint和sql_variant,不能使用用户定义的数据类型其中类型可以为:CHAR[(

2020-11-11 17:14:37 1192

原创 mysql——decimal类型与decimal长度

分为三种:float:浮点型,含字节数为4,32bit,数值范围为-3.4E38~3.4E38(7个有效位) double:双精度实型,含字节数为8,64bit,数值范围-1.7E308~1.7E308(15个有效位) decimal:数字型,128bit,不存在精度损失,常用于银行账目计算(28个有效位)顾名思义就是double型的实体占用内存空间是float的两倍。float是4个字节而double是8个字节。float和double类型的数据,无法精确表示计算结果,这是由于float和dou

2020-11-11 16:34:54 2221

原创 sql面试题——手写sql练习案例(一)

1.求:找出所有科目成绩都大于某一学科平均成绩的学生uid subject_id score 1001 01 90 1001 02 90 1001 03 90 1002 01 85 1002 02 85 1002 03 70 1003 01 70 1003 02 70 1003 03 85 先创建表create table score(.

2020-11-10 16:31:39 680

原创 需记住的用户指标分析

用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。新增用户首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户指标包括日新增用户、周新增用户、月新增用户。活跃用户打开应用的用户即为活跃用户,不考虑用户的使用情况。每天一台设备打开多次会被计为一个活跃用户。周(月)活跃用户某个自然周(月)

2020-11-06 11:32:36 612

原创 数据仓库——collect_set函数、NVL函数、日期处理

目录1.collect_set函数2.nvl函数3.日期处理函数1.collect_set函数数据:id order-type order-number 1 aa 5 2 bb 2 1 bb 1 2 aa 3 1 aa 2 需求:对用户的订单进行分析,将不同订单类型分别多少单展示出来,每个用户一行实现:1.使用concat()函数将order_type和order_numb..

2020-11-06 10:17:33 1497

原创 Flume知识点详解总结

1.Flume定义Fiume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume基于流式架构,灵活简单。1.1为什么选用Flume?Flume最主要的作用就是实时读取服务器本地磁盘的数据,将数据写入到HDFS。2.Flume基础架构AgentAgent是一个jvm进程,他以事件的形式将数据从源头送至目的地。主要有3个部分组成:Source、Channel、Sink。Source负责接收数据到Flume Agent的组件。Sour...

2020-11-04 17:24:48 1456

原创 数据仓库架构演变

目录数仓架构演变离线大数据架构数据仓库分层Lambda架构Lambda架构存在的问题Kappa架构Kappa架构典型案例Kappa架构的重新处理过程Lambda架构和Kappa架构的对比实时数仓和离线数仓数仓架构演变数据仓库概念是Inmon于1990年提出并给出了一个完整的建设方法,随着互联网时代来临,数据量暴增,开始使 用大数据工具来替代经典数仓中的传统工具。 此时仅仅是工具的取代,架构上并没有根本 的区别,可以把这个架构叫做离线大数据架构。后来随着业务

2020-11-04 09:23:33 529

原创 累计型快照事实表——订单优惠表使用

累计快照适用于较短周期,有着明确的开始和结束状态的过程,如一个订单执行的过程,并记录过程中每个步骤的执行时间,使分析人员对执行的过程有整体的把握,周期快照事实表记录上每一个步骤的执行时间是逐步建立的,随着执行的过程逐步更新的事实表中。优惠券的生命周期:领取优惠券→用优惠券下单→优惠券参与支付累计型快照事实表使用:统计优惠券领取次数,优惠券下单次数,优惠券参与支付次数1.建表drop table if exists dwd_fact_coupon_use; COMMENT '删除已存在的表

2020-11-03 17:25:49 834

原创 Hive——编写自定义UDF函数和UDTF函数

一.用户自定义函数UDF用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF,一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的),它们就将和内置的函数一样使用,甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数,每一种都会针对输入数据执行特定“一类”的转换过程UDF函数特点:一行进一行出。简称,一进一出。UDF函数解析公共字段:编写UDF类在pom.xml文件中添加如下内容<dependency&

2020-11-02 19:39:30 889

原创 数据仓库分层

一.数据仓库分层ODS(Operation Data Store)层:原始数据层,存放加载原始日志、数据,数据保持原貌不做处理。DWD(Data warehouse detail)层:对ODS层数据进行清洗(去除空值,超过极限范围的数据)、维度退化、脱敏等。DWS(data warehouse service)层:以DWD为基础,按天进行轻度汇总。DWT(data warehouse Topic)层:以DWS为基础,按主题进行汇总。ADS(Application Data Store)层:为各种

2020-10-29 19:44:46 5018

原创 Sqoop面试题总结

1. Sqoop导入数据到hdfs中的参数--connect \ # 特殊的jdbc连接的字符串 --username \ --password \ --target-dir \ # hdfs目标的目录 --delete-target-dir \ # 导入的目标目录如果存在则删除那个目录 --num-mappers \ #相当于 -m ,并行导入时map task的个数 --fields-terminated-by \ --query "$2" ' and $CONDITIONS;' #

2020-10-28 17:23:17 794

原创 Zookeeper面试题总结

目录1. ZooKeeper 是什么?2. ZooKeeper 提供了什么?3. Zookeeper 文件系统4. Zookeeper 怎么保证主从节点的状态同步?5. 四种类型的数据节点 Znode6. Zookeeper Watcher 机制 – 数据变更通知7. 客户端注册 Watcher 实现8. 服务端处理 Watcher 实现9. 客户端回调 Watcher10. ACL 权限控制机制11. Chroot 特性12. 会话管理13. 服务器角色

2020-10-27 19:49:06 670

原创 Kafka高频面试题总结

目录1.Kafka中的ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)又代表什么?2.Kafka中的HW、LEO等分别代表什么?3.Kafka中是怎么体现消息顺序性的?4.Kafka中的分区器、序列化器、拦截器是否了解?它们之间的处理顺序是什么?5.Kafka生产者客户端使用了几个线程来处理?分别是什么?6.“消费组中的消费者个数如果超过topic的分区,那么就会有消费者消费不到数据”这句话是否正确?7.消费者提交消费位移时提交.

2020-10-27 15:59:39 1126

原创 Kafka入门知识总结

每个partition(目录)相当于一个巨型文件被平均分配到多个大小相等的segment(段)数据文件中(每个segment 文件中消息数量不一定相等),这种特性也方便old segment的删除,即方便已被消费的消息的清理,提高磁盘的利用率。每个partition只需要支持顺序读写就行,segment的文件生命周期由服务端配置参数(log.segment.bytes,log.roll.{ms,hours}等若干参数)决定。每个segment对应两个文件——“.index”文件和“.log”文件。分别表示

2020-10-23 17:41:04 335

原创 Java常见面试题汇总

目录一.常见的 Java 问题二.Java 线程三.Java 集合类一.常见的 Java 问题1.什么是 Java虚拟机?为什么 Java被称作是“平台无关的编程语言”?Java 虚拟机是一个可以执行 Java 字节码的虚拟机进程。Java 源文件被编译成能被 Java 虚拟机执行的字节码文件。Java 被设计成允许应用程序可以运行在任意的平台,而不需要程序员为每一个平台单独重写或者是重新编译。Java 虚拟机让这个变为可能,因为它知道底层硬件平台的指令长度和其他...

2020-10-20 17:35:15 625

原创 Flink总结

目录1.什么是flink?2.sparktreaming 和 strom 有啥区别?3.flink 和 sparktreaming 有啥区别?4.Flink 的重要特点?5.什么是有界流和无界流?6.Flink的其他特点?7.Flink 组件?8.jobManager作用?9.jobManager收到的应用程序包含哪些?10.taskManager作用?11.taskManager执行任务的数量由什么来决定的?12.resourceManager作用?13

2020-09-29 11:07:49 1768 1

原创 Flink常见面试问题汇总

问题: 为什么使用 Flink 替代 Spark?解答:主要考虑的是 flink 的低延迟、高吞吐量和对流式数据应用场景更好的支持; 另外, flink 可以很好地处理乱序数据, 而且可以保证 exactly-once 的状态一致性。详见文档第一章, 有 Flink 和 Spark 的详细对比。问题: Flink 的 checkpoint 存在哪里?解答: 可以是内存, 文件系统, 或者 RocksDB。问题: 如果下级存储不支持事务, Flink 怎么保证 exactly-once?解答: 端到

2020-09-22 11:30:51 454 1

原创 Flink入门知识点

初识 FlinkFlink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目, 2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会, 参加这个孵化项目的初始成员是Stratosphere 系统的核心开发人员, 2014 年 12 月, Flink 一跃成为 Apache 软件基金会的顶级项目。Flink 项目的理念Apache Flink 是为分布

2020-09-21 09:42:54 444

原创 centos终端显示-bash-4.2#解决方法

因为修改环境变量出现了问题,虚拟机和xshell终端提示符显示的是-bash-4.2# 而不是root@主机名 + 路径的显示方式解决方法:重启服务器,在选择内核界面使用上下箭头移动选择内核并按“e”找到 linux16这行进行修改(ro换成rw) (init=/bin/bash)使用“ctrl + x” 来重启服务器就可以了,重启后就会进入到单用户在单用户模式下,找到/etc/profile 把添加需要删除的内容删除,回到正常时的内容然后关机,重启就可以了...

2020-09-19 11:23:32 2305 1

原创 Flink安装 高可用

安装包下载地址:http://flink.apache.org/downloads.html 选择对应Hadoop的Flink版本下载安装解压:tar -zxvf flink-1.7.2-bin-hadoop27-scala_2.11.tgz改名为:mv flink-1.7.2 flinkStandalone模式(三个节点)修改conf目录下的配置文件:1.conf/masters2.conf/slaves3. conf/flink-conf.yamljob...

2020-09-18 20:14:31 359

原创 dubbo报错Caused by: java.lang.IllegalStateException: Failed to check the status of the service com.sea

在使用dubbo,写了个简单的SayHello进行测试,分别启动服务层工程和表现层工程的时候,出现以下报错信息:Exception in thread "main" org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'demoService': FactoryBean threw exception on object creation; nested exception is

2020-09-16 21:07:56 1264

原创 java连接mongodb报错超时连接不上

Exception in thread "main" com.mongodb.MongoTimeoutException: Timed out after 30000 ms while waiting for a server that matches WritableServerSelector. Client view of cluster state is {type=UNKNOWN, servers=[{address=hadoop02:12345, type=UNKNOWN, state=.

2020-09-14 18:41:06 3265

原创 Windows上安装Mongodb步骤及过程报错无法启动

下载路径:https://nosqlbooster.com/downloads安装比较简单,类似于普通软件,中间主要是选择“Custom”自定义 安装路径修改下:D:\mongo然后不断“下一步”,安装至结束。创建数据库文件的存放位置在mongodb下创建data *在data下再创建db D:\Mongodb\data\db*因为启动mongodb服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动创建,而且不能启动成功- 命令行下运行 MongoDB 服务器

2020-09-12 16:00:35 550

原创 mogodb在linux上安装

拖取压缩包解压修改名字创建 data logs 目录MongoDB的数据存储在data目录的db目录下,但是这个目录在安装过程不会自动创建,所以你需要手动创建data目录,并在data目录中创建db目录以下实例中我们将data目录创建于根目录下(/)注意:/data/db 是 MongoDB 默认的启动的数据库路径(–dbpath)vi conf/mongod.conf添加:port = 12345dbpath = data/dblogpath = logs/mongod

2020-09-11 18:20:23 207

原创 Exception in thread “main“ joptsimple.UnrecognizedOptionException: partition is not a recognized opt

命令错误仔细检查命令输入对没!!!启动nohup bin/kafka-server-start.sh config/server.properties &创建主题bin/kafka-topics.sh --create --bootstrap-server node7-1:9092,node7-2:9092,node7-3:9092,node7-4:9092 --replication-factor 1 --partitions 1 --topic test04查看主题bin/kaf.

2020-09-10 17:26:40 3760

原创 Spark知识点全总结

1.spark生态:Spark Corespark 的核心计算 ,用于通用分布式数据处理的引擎。不依赖于任何其他组件,可以运行在任何商用服务器集群上。实现饿了 Spark 的基本功能,包含任务调度、内存管理、错误恢复,与存储系统交互等模块。还包含了对弹性分布式数据集(Resilient Distributed Dataset,简称RDD)的API 定义。Spark SQL是Spark用来操作结构化数据的程序包,可以使用SQL或者HQL来对历史数据做交互式查询(即席查询:用户根据自己的需求 自定义

2020-09-09 10:57:27 3230

原创 Spark中实现二次排序

二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果object Demo02 { def main(args: Array[String]): Unit = { //控制日志输出 Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("twosort").setMaster("local") val sc =

2020-09-09 09:56:45 526

原创 Spark sql知识点和执行流程图

1.什么是Spark SQLSpark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了 2 个编程抽象:DataFrame 和 DataSet,并且作为分布式 SQL 查询引擎的作用执行流程2.Spark SQL 的特点1)易整合2)统一的数据访问方式3)兼容 Hive4)标准的数据连接3.什么是DataFrame?与 RDD 类似,DataFrame 也是一个分布式数据容器。然而 DataFrame 更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即 s

2020-09-08 17:34:24 549

原创 Spark提交流程

① 打包程序为 xxx.jar,上传到某个节点上② 执行一个 `SparkSubmit` ,在SparkSubmit中,会写各种配置信息(--master、CPU、内存)③ 以 `client` 模式为例,会在提交的节点上启动一个 driver进程④ Driver就是我们的 `application`,Wordcount⑤ 创建 `SparkContext` 对象,会在内部创建(`DAGscheduler`,`Taskscheduler`)⑥ 在driver中,代码如果遇到了 `actio

2020-09-08 17:00:06 445

原创 数据仓库知识点

什么是数据仓库?数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库 数据库是长期存储在计算机内、有组织的、共享的数据集合.数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点,并可在一定范围内为多个用户共享数据仓库定义面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策.面向主题:在较高层次上将企业的信息系统的数据综合归并进行分析利用的抽象的概念.每个主题基本上对应一个相应的分析领域(BI

2020-07-31 20:42:25 512

原创 Hive将a表的数据复制到b表里面有几种方法?

Create tables as select 语句(as可选择类型进行复制)Create tables like +insert into select 语句(使用like创建的表,目标表和源表的结构一样)

2020-07-31 20:14:01 1128

原创 hive入门介绍及应用

一.为什么要使用Hive? hadoop中的mr有缺点(Mapper:的输出,就是把键相同的合并起来;sql:语句; Reduce:诊对一个键相同的多个值,进行处理;聚合函数;(词频:sum);(order by))需要自己编程,不方便,hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库...

2020-07-31 19:35:58 356

原创 Zookeeper入门知识总结

显示所有操作命令:help 使用ls命令来查看当前znode中所包含的内容:ls path [watch] 查看当前节点数据并能看到更新次数等数据:ls2 path [watch] 普通创建:create 含有序列:-s 临时(重启或者超时消失):-e 获得节点的值:get path [watch] 设置节点的具体值:set 查看节点状态:stat 删除节点:delete 递归删除节点:rmr 查看历史命令:histo

2020-01-02 21:09:49 484 1

原创 Hadoop知识点问题总结

1.简单描述你对Hadoop集群SafeMode模式的理解? 集群处于安全模式,不能执行重要操作(写操作),集群属于只读状态;但严格来说,只 是保证HDFS元数据信息的访问,而不保证文件的访问;集群启动完成后,自动退出安 全模式,如果集群处于安全模式,想要完成写操作,需要离开安全模式 查看安全模式状态:bin/hdfs dfsadmin -safem...

2020-01-02 18:46:17 326

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除