Poolweet_-CSDN博客

原创报错：java.lang.RuntimeException: java.lang.IllegalArgumentException: java.net.UnknownHostException

出现这种问题多半是windows找不到linux主机。修改目录 C:\Windows\System32\drivers\etc 下的hosts 文件查看确认。

2021-01-25 16:16:44 1203

原创开窗函数

开窗函数有两类：一类是聚合开窗函数，一类是排序开窗函数.聚合函数count() over(partition by ... order by ...)max() over(partition by ... order by ...)min() over(partition by ... order by ...)sum() over(partition by ... order by ...)avg() over(partition by ... order by ...)排序函数

2020-11-30 14:26:38 470

原创 Presto安装介绍及使用

Presto简介Presto是一个开源的分布式SQL查询引擎，数据量支持GB到PB字节，主要用来处理秒级查询的场景。注意：虽然Presto可以解析SQL，但它不是一个标准的数据库。不是Mysql、Oracle的代替品，也不能用来处理在线事务（OLAP）。Presto架构Presto由一个Connrdinator和多个Worker组成。Presto优缺点优点：Presto基于内存运算，减少了硬盘IO，计算更快。能够连接多个数据源，跨数据源连表查，从Hive查询大量网站访问记

2020-11-26 15:08:47 1331

转载常见人资面试题——面试技巧

1、请你自我介绍一下你自己？回答提示：一般人回答这个问题过于平常，只说姓名、年龄、爱好、工作经验，这些在简历上都有。其实，企业最希望知道的是求职者能否胜任工作，包括：最强的技能、最深入研究的知识领域、个性中最积极的部分、做过的最成功的事，主要的成就等，这些都可以和学习无关，也可以和学习有关，但要突出积极的个性和做事的能力，说得合情合理企业才会相信。企业很重视一个人的礼貌，求职者要尊重考官，在回答每个问题之后都说一句“谢谢”，企业喜欢有礼貌的求职者。2、你觉得你个性上最大的优点是什么？回答提示：沉着冷静

2020-11-26 14:23:51 1371

原创 Superset安装配置及应用

目录1. Superset应用场景2. Superset安装2.1 安装Python环境2.2安装Miniconda2.3 创建Python3.6环境2.4 安装Superset2.5 启动Superset3.Superset使用3.1 对接MySQL数据源3.2 数据源配置3.3 制作仪表盘ApacheSuperset是一个开源的、现代的、轻量级BI分析工具，能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘，且拥有友好的用户界面，十分...

2020-11-19 15:38:04 1219

原创 sql面试题——手写sql案例（二））

1. 求：每个店铺的UV（访客数）每个店铺的访问次数top3有50W个京东店铺，每个顾客访客访问任何一个店铺的任何一个商品时都会产生一条访问日志，访问日志存储的表名为Visit，访客的用户id为user_id，被访问的店铺名称为shop，请统计：1）每个店铺的UV（访客数）2）每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数数据：u1 au2 bu1 bu1 au3 cu4 bu1 au2 cu5 bu4 bu6 cu2 cu1 bu2 a

2020-11-16 19:00:34 1107

原创 mysql——cast()函数

cast函数用于某种数据类型的表达式显式转换为另一种数据类型，cast()函数的参数是一个表达式，它包括用as关键字分隔的源值和目标数据类型。语法：CAST(expression AS data_type)expression：任何有效的SQLService表达式AS：用于分隔两个参数，在AS之前的是要处理的数据，在AS之后是要转换的数据类型。data_type：目标系统所提供的数据类型，包括bigint和sql_variant,不能使用用户定义的数据类型其中类型可以为：CHAR[(

2020-11-11 17:14:37 1300

原创 mysql——decimal类型与decimal长度

分为三种：float：浮点型，含字节数为4，32bit，数值范围为-3.4E38~3.4E38（7个有效位） double：双精度实型，含字节数为8，64bit，数值范围-1.7E308~1.7E308（15个有效位） decimal：数字型，128bit，不存在精度损失，常用于银行账目计算（28个有效位）顾名思义就是double型的实体占用内存空间是float的两倍。float是4个字节而double是8个字节。float和double类型的数据，无法精确表示计算结果，这是由于float和dou

2020-11-11 16:34:54 2394

原创 sql面试题——手写sql练习案例（一）

1.求：找出所有科目成绩都大于某一学科平均成绩的学生uid subject_id score 1001 01 90 1001 02 90 1001 03 90 1002 01 85 1002 02 85 1002 03 70 1003 01 70 1003 02 70 1003 03 85 先创建表create table score(.

2020-11-10 16:31:39 732

原创需记住的用户指标分析

用户用户以设备为判断标准，在移动统计中，每个独立设备认为是一个独立用户。Android系统根据IMEI号，IOS系统根据OpenUDID来标识一个独立用户，每部手机一个用户。新增用户首次联网使用应用的用户。如果一个用户首次打开某APP，那这个用户定义为新增用户；卸载再安装的设备，不会被算作一次新增。新增用户指标包括日新增用户、周新增用户、月新增用户。活跃用户打开应用的用户即为活跃用户，不考虑用户的使用情况。每天一台设备打开多次会被计为一个活跃用户。周（月）活跃用户某个自然周（月）

2020-11-06 11:32:36 687

原创数据仓库——collect_set函数、NVL函数、日期处理

目录1.collect_set函数2.nvl函数3.日期处理函数1.collect_set函数数据：id order-type order-number 1 aa 5 2 bb 2 1 bb 1 2 aa 3 1 aa 2 需求：对用户的订单进行分析，将不同订单类型分别多少单展示出来，每个用户一行实现：1.使用concat（）函数将order_type和order_numb..

2020-11-06 10:17:33 1594

原创 Flume知识点详解总结

1.Flume定义Fiume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume基于流式架构，灵活简单。1.1为什么选用Flume？Flume最主要的作用就是实时读取服务器本地磁盘的数据，将数据写入到HDFS。2.Flume基础架构AgentAgent是一个jvm进程，他以事件的形式将数据从源头送至目的地。主要有3个部分组成：Source、Channel、Sink。Source负责接收数据到Flume Agent的组件。Sour...

2020-11-04 17:24:48 1708

原创数据仓库架构演变

目录数仓架构演变离线大数据架构数据仓库分层Lambda架构Lambda架构存在的问题Kappa架构Kappa架构典型案例Kappa架构的重新处理过程Lambda架构和Kappa架构的对比实时数仓和离线数仓数仓架构演变数据仓库概念是Inmon于1990年提出并给出了一个完整的建设方法，随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫做离线大数据架构。后来随着业务

2020-11-04 09:23:33 614

原创累计型快照事实表——订单优惠表使用

累计快照适用于较短周期，有着明确的开始和结束状态的过程，如一个订单执行的过程，并记录过程中每个步骤的执行时间，使分析人员对执行的过程有整体的把握，周期快照事实表记录上每一个步骤的执行时间是逐步建立的，随着执行的过程逐步更新的事实表中。优惠券的生命周期：领取优惠券→用优惠券下单→优惠券参与支付累计型快照事实表使用：统计优惠券领取次数，优惠券下单次数，优惠券参与支付次数1.建表drop table if exists dwd_fact_coupon_use; COMMENT '删除已存在的表

2020-11-03 17:25:49 895

原创 Hive——编写自定义UDF函数和UDTF函数

一.用户自定义函数UDF用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF，一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的)，它们就将和内置的函数一样使用，甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数，每一种都会针对输入数据执行特定“一类”的转换过程UDF函数特点：一行进一行出。简称，一进一出。UDF函数解析公共字段：编写UDF类在pom.xml文件中添加如下内容<dependency&

2020-11-02 19:39:30 999

原创数据仓库分层

一.数据仓库分层ODS(Operation Data Store)层：原始数据层，存放加载原始日志、数据，数据保持原貌不做处理。DWD(Data warehouse detail)层：对ODS层数据进行清洗（去除空值，超过极限范围的数据）、维度退化、脱敏等。DWS（data warehouse service）层：以DWD为基础，按天进行轻度汇总。DWT（data warehouse Topic）层：以DWS为基础，按主题进行汇总。ADS（Application Data Store）层：为各种

2020-10-29 19:44:46 6457

原创 Sqoop面试题总结

1. Sqoop导入数据到hdfs中的参数--connect \ # 特殊的jdbc连接的字符串 --username \ --password \ --target-dir \ # hdfs目标的目录 --delete-target-dir \ # 导入的目标目录如果存在则删除那个目录 --num-mappers \ #相当于 -m ,并行导入时map task的个数 --fields-terminated-by \ --query "$2" ' and $CONDITIONS;' #

2020-10-28 17:23:17 856

原创 Zookeeper面试题总结

目录1. ZooKeeper 是什么？2. ZooKeeper 提供了什么？3. Zookeeper 文件系统4. Zookeeper 怎么保证主从节点的状态同步？5. 四种类型的数据节点 Znode6. Zookeeper Watcher 机制 – 数据变更通知7. 客户端注册 Watcher 实现8. 服务端处理 Watcher 实现9. 客户端回调 Watcher10. ACL 权限控制机制11. Chroot 特性12. 会话管理13. 服务器角色

2020-10-27 19:49:06 734

原创 Kafka高频面试题总结

目录1.Kafka中的ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)又代表什么？2.Kafka中的HW、LEO等分别代表什么？3.Kafka中是怎么体现消息顺序性的？4.Kafka中的分区器、序列化器、拦截器是否了解？它们之间的处理顺序是什么？5.Kafka生产者客户端使用了几个线程来处理？分别是什么？6.“消费组中的消费者个数如果超过topic的分区，那么就会有消费者消费不到数据”这句话是否正确？7.消费者提交消费位移时提交.

2020-10-27 15:59:39 1220

原创 Kafka入门知识总结

每个partition(目录)相当于一个巨型文件被平均分配到多个大小相等的segment(段)数据文件中（每个segment 文件中消息数量不一定相等），这种特性也方便old segment的删除，即方便已被消费的消息的清理，提高磁盘的利用率。每个partition只需要支持顺序读写就行，segment的文件生命周期由服务端配置参数（log.segment.bytes，log.roll.{ms,hours}等若干参数）决定。每个segment对应两个文件——“.index”文件和“.log”文件。分别表示

2020-10-23 17:41:04 405

原创 Java常见面试题汇总

目录一.常见的 Java 问题二.Java 线程三.Java 集合类一.常见的 Java 问题1.什么是 Java虚拟机？为什么 Java被称作是“平台无关的编程语言”？Java 虚拟机是一个可以执行 Java 字节码的虚拟机进程。Java 源文件被编译成能被 Java 虚拟机执行的字节码文件。Java 被设计成允许应用程序可以运行在任意的平台，而不需要程序员为每一个平台单独重写或者是重新编译。Java 虚拟机让这个变为可能，因为它知道底层硬件平台的指令长度和其他...

2020-10-20 17:35:15 682

原创 Flink总结

目录1.什么是flink？2.sparktreaming 和 strom 有啥区别？3.flink 和 sparktreaming 有啥区别？4.Flink 的重要特点？5.什么是有界流和无界流？6.Flink的其他特点？7.Flink 组件？8.jobManager作用？9.jobManager收到的应用程序包含哪些？10.taskManager作用？11.taskManager执行任务的数量由什么来决定的？12.resourceManager作用？13

2020-09-29 11:07:49 1962 1

原创 Flink常见面试问题汇总

问题：为什么使用 Flink 替代 Spark？解答：主要考虑的是 flink 的低延迟、高吞吐量和对流式数据应用场景更好的支持；另外， flink 可以很好地处理乱序数据，而且可以保证 exactly-once 的状态一致性。详见文档第一章，有 Flink 和 Spark 的详细对比。问题： Flink 的 checkpoint 存在哪里？解答：可以是内存，文件系统，或者 RocksDB。问题：如果下级存储不支持事务， Flink 怎么保证 exactly-once？解答：端到

2020-09-22 11:30:51 554 1

原创 Flink入门知识点

初识 FlinkFlink 起源于 Stratosphere 项目，Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目， 2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会，参加这个孵化项目的初始成员是Stratosphere 系统的核心开发人员， 2014 年 12 月， Flink 一跃成为 Apache 软件基金会的顶级项目。Flink 项目的理念Apache Flink 是为分布

2020-09-21 09:42:54 501

原创 centos终端显示-bash-4.2#解决方法

因为修改环境变量出现了问题，虚拟机和xshell终端提示符显示的是-bash-4.2# 而不是root@主机名 + 路径的显示方式解决方法：重启服务器，在选择内核界面使用上下箭头移动选择内核并按“e”找到 linux16这行进行修改（ro换成rw） (init=/bin/bash)使用“ctrl + x” 来重启服务器就可以了，重启后就会进入到单用户在单用户模式下，找到/etc/profile 把添加需要删除的内容删除，回到正常时的内容然后关机，重启就可以了...

2020-09-19 11:23:32 2632 1

原创 Flink安装高可用

安装包下载地址：http://flink.apache.org/downloads.html 选择对应Hadoop的Flink版本下载安装解压：tar -zxvf flink-1.7.2-bin-hadoop27-scala_2.11.tgz改名为：mv flink-1.7.2 flinkStandalone模式（三个节点）修改conf目录下的配置文件：1.conf/masters2.conf/slaves3. conf/flink-conf.yamljob...

2020-09-18 20:14:31 407

原创 dubbo报错Caused by: java.lang.IllegalStateException: Failed to check the status of the service com.sea

在使用dubbo，写了个简单的SayHello进行测试，分别启动服务层工程和表现层工程的时候，出现以下报错信息：Exception in thread "main" org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'demoService': FactoryBean threw exception on object creation; nested exception is

2020-09-16 21:07:56 1343

原创 java连接mongodb报错超时连接不上

Exception in thread "main" com.mongodb.MongoTimeoutException: Timed out after 30000 ms while waiting for a server that matches WritableServerSelector. Client view of cluster state is {type=UNKNOWN, servers=[{address=hadoop02:12345, type=UNKNOWN, state=.

2020-09-14 18:41:06 3484

空空如也

空空如也