大数据
文章平均质量分 82
Poolweet_
这个作者很懒,什么都没留下…
展开
-
开窗函数
开窗函数有两类:一类是聚合开窗函数,一类是排序开窗函数.聚合函数count() over(partition by ... order by ...)max() over(partition by ... order by ...)min() over(partition by ... order by ...)sum() over(partition by ... order by ...)avg() over(partition by ... order by ...)排序函数原创 2020-11-30 14:26:38 · 379 阅读 · 0 评论 -
Presto安装介绍及使用
Presto简介Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。不是Mysql、Oracle的代替品,也不能用来处理在线事务(OLAP)。Presto架构Presto由一个Connrdinator和多个Worker组成。Presto优缺点优点:Presto基于内存运算,减少了硬盘IO,计算更快。 能够连接多个数据源,跨数据源连表查,从Hive查询大量网站访问记原创 2020-11-26 15:08:47 · 1146 阅读 · 0 评论 -
Superset安装配置及应用
目录1. Superset应用场景2. Superset安装2.1 安装Python环境2.2安装Miniconda2.3 创建Python3.6环境2.4 安装Superset2.5 启动Superset3.Superset使用3.1 对接MySQL数据源3.2 数据源配置3.3 制作仪表盘ApacheSuperset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分...原创 2020-11-19 15:38:04 · 795 阅读 · 0 评论 -
需记住的用户指标分析
用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。新增用户首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户指标包括日新增用户、周新增用户、月新增用户。活跃用户打开应用的用户即为活跃用户,不考虑用户的使用情况。每天一台设备打开多次会被计为一个活跃用户。周(月)活跃用户某个自然周(月)原创 2020-11-06 11:32:36 · 579 阅读 · 0 评论 -
Flume知识点详解总结
1.Flume定义Fiume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume基于流式架构,灵活简单。1.1为什么选用Flume?Flume最主要的作用就是实时读取服务器本地磁盘的数据,将数据写入到HDFS。2.Flume基础架构AgentAgent是一个jvm进程,他以事件的形式将数据从源头送至目的地。主要有3个部分组成:Source、Channel、Sink。Source负责接收数据到Flume Agent的组件。Sour...原创 2020-11-04 17:24:48 · 1003 阅读 · 0 评论 -
数据仓库架构演变
目录数仓架构演变离线大数据架构数据仓库分层Lambda架构Lambda架构存在的问题Kappa架构Kappa架构典型案例Kappa架构的重新处理过程Lambda架构和Kappa架构的对比实时数仓和离线数仓数仓架构演变数据仓库概念是Inmon于1990年提出并给出了一个完整的建设方法,随着互联网时代来临,数据量暴增,开始使 用大数据工具来替代经典数仓中的传统工具。 此时仅仅是工具的取代,架构上并没有根本 的区别,可以把这个架构叫做离线大数据架构。后来随着业务原创 2020-11-04 09:23:33 · 420 阅读 · 0 评论 -
累计型快照事实表——订单优惠表使用
累计快照适用于较短周期,有着明确的开始和结束状态的过程,如一个订单执行的过程,并记录过程中每个步骤的执行时间,使分析人员对执行的过程有整体的把握,周期快照事实表记录上每一个步骤的执行时间是逐步建立的,随着执行的过程逐步更新的事实表中。优惠券的生命周期:领取优惠券→用优惠券下单→优惠券参与支付累计型快照事实表使用:统计优惠券领取次数,优惠券下单次数,优惠券参与支付次数1.建表drop table if exists dwd_fact_coupon_use; COMMENT '删除已存在的表原创 2020-11-03 17:25:49 · 779 阅读 · 0 评论 -
Hive——编写自定义UDF函数和UDTF函数
一.用户自定义函数UDF用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF,一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的),它们就将和内置的函数一样使用,甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数,每一种都会针对输入数据执行特定“一类”的转换过程UDF函数特点:一行进一行出。简称,一进一出。UDF函数解析公共字段:编写UDF类在pom.xml文件中添加如下内容<dependency&原创 2020-11-02 19:39:30 · 745 阅读 · 0 评论 -
数据仓库分层
一.数据仓库分层ODS(Operation Data Store)层:原始数据层,存放加载原始日志、数据,数据保持原貌不做处理。DWD(Data warehouse detail)层:对ODS层数据进行清洗(去除空值,超过极限范围的数据)、维度退化、脱敏等。DWS(data warehouse service)层:以DWD为基础,按天进行轻度汇总。DWT(data warehouse Topic)层:以DWS为基础,按主题进行汇总。ADS(Application Data Store)层:为各种原创 2020-10-29 19:44:46 · 3429 阅读 · 0 评论 -
Sqoop面试题总结
1. Sqoop导入数据到hdfs中的参数--connect \ # 特殊的jdbc连接的字符串 --username \ --password \ --target-dir \ # hdfs目标的目录 --delete-target-dir \ # 导入的目标目录如果存在则删除那个目录 --num-mappers \ #相当于 -m ,并行导入时map task的个数 --fields-terminated-by \ --query "$2" ' and $CONDITIONS;' #原创 2020-10-28 17:23:17 · 768 阅读 · 0 评论 -
Zookeeper面试题总结
目录1. ZooKeeper 是什么?2. ZooKeeper 提供了什么?3. Zookeeper 文件系统4. Zookeeper 怎么保证主从节点的状态同步?5. 四种类型的数据节点 Znode6. Zookeeper Watcher 机制 – 数据变更通知7. 客户端注册 Watcher 实现8. 服务端处理 Watcher 实现9. 客户端回调 Watcher10. ACL 权限控制机制11. Chroot 特性12. 会话管理13. 服务器角色原创 2020-10-27 19:49:06 · 229 阅读 · 0 评论 -
Kafka高频面试题总结
目录1.Kafka中的ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)又代表什么?2.Kafka中的HW、LEO等分别代表什么?3.Kafka中是怎么体现消息顺序性的?4.Kafka中的分区器、序列化器、拦截器是否了解?它们之间的处理顺序是什么?5.Kafka生产者客户端使用了几个线程来处理?分别是什么?6.“消费组中的消费者个数如果超过topic的分区,那么就会有消费者消费不到数据”这句话是否正确?7.消费者提交消费位移时提交.原创 2020-10-27 15:59:39 · 668 阅读 · 0 评论 -
Kafka入门知识总结
每个partition(目录)相当于一个巨型文件被平均分配到多个大小相等的segment(段)数据文件中(每个segment 文件中消息数量不一定相等),这种特性也方便old segment的删除,即方便已被消费的消息的清理,提高磁盘的利用率。每个partition只需要支持顺序读写就行,segment的文件生命周期由服务端配置参数(log.segment.bytes,log.roll.{ms,hours}等若干参数)决定。每个segment对应两个文件——“.index”文件和“.log”文件。分别表示原创 2020-10-23 17:41:04 · 293 阅读 · 0 评论 -
Flink总结
目录1.什么是flink?2.sparktreaming 和 strom 有啥区别?3.flink 和 sparktreaming 有啥区别?4.Flink 的重要特点?5.什么是有界流和无界流?6.Flink的其他特点?7.Flink 组件?8.jobManager作用?9.jobManager收到的应用程序包含哪些?10.taskManager作用?11.taskManager执行任务的数量由什么来决定的?12.resourceManager作用?13原创 2020-09-29 11:07:49 · 627 阅读 · 1 评论 -
Flink常见面试问题汇总
问题: 为什么使用 Flink 替代 Spark?解答:主要考虑的是 flink 的低延迟、高吞吐量和对流式数据应用场景更好的支持; 另外, flink 可以很好地处理乱序数据, 而且可以保证 exactly-once 的状态一致性。详见文档第一章, 有 Flink 和 Spark 的详细对比。问题: Flink 的 checkpoint 存在哪里?解答: 可以是内存, 文件系统, 或者 RocksDB。问题: 如果下级存储不支持事务, Flink 怎么保证 exactly-once?解答: 端到原创 2020-09-22 11:30:51 · 412 阅读 · 1 评论 -
Flink入门知识点
初识 FlinkFlink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目, 2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会, 参加这个孵化项目的初始成员是Stratosphere 系统的核心开发人员, 2014 年 12 月, Flink 一跃成为 Apache 软件基金会的顶级项目。Flink 项目的理念Apache Flink 是为分布原创 2020-09-21 09:42:54 · 394 阅读 · 0 评论 -
centos终端显示-bash-4.2#解决方法
因为修改环境变量出现了问题,虚拟机和xshell终端提示符显示的是-bash-4.2# 而不是root@主机名 + 路径的显示方式解决方法:重启服务器,在选择内核界面使用上下箭头移动选择内核并按“e”找到 linux16这行进行修改(ro换成rw) (init=/bin/bash)使用“ctrl + x” 来重启服务器就可以了,重启后就会进入到单用户在单用户模式下,找到/etc/profile 把添加需要删除的内容删除,回到正常时的内容然后关机,重启就可以了...原创 2020-09-19 11:23:32 · 2088 阅读 · 1 评论 -
Flink安装 高可用
安装包下载地址:http://flink.apache.org/downloads.html 选择对应Hadoop的Flink版本下载安装解压:tar -zxvf flink-1.7.2-bin-hadoop27-scala_2.11.tgz改名为:mv flink-1.7.2 flinkStandalone模式(三个节点)修改conf目录下的配置文件:1.conf/masters2.conf/slaves3. conf/flink-conf.yamljob...原创 2020-09-18 20:14:31 · 335 阅读 · 0 评论 -
dubbo报错Caused by: java.lang.IllegalStateException: Failed to check the status of the service com.sea
在使用dubbo,写了个简单的SayHello进行测试,分别启动服务层工程和表现层工程的时候,出现以下报错信息:Exception in thread "main" org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'demoService': FactoryBean threw exception on object creation; nested exception is原创 2020-09-16 21:07:56 · 1194 阅读 · 0 评论 -
java连接mongodb报错超时连接不上
Exception in thread "main" com.mongodb.MongoTimeoutException: Timed out after 30000 ms while waiting for a server that matches WritableServerSelector. Client view of cluster state is {type=UNKNOWN, servers=[{address=hadoop02:12345, type=UNKNOWN, state=.原创 2020-09-14 18:41:06 · 3027 阅读 · 0 评论 -
Windows上安装Mongodb步骤及过程报错无法启动
下载路径:https://nosqlbooster.com/downloads安装比较简单,类似于普通软件,中间主要是选择“Custom”自定义 安装路径修改下:D:\mongo然后不断“下一步”,安装至结束。创建数据库文件的存放位置在mongodb下创建data *在data下再创建db D:\Mongodb\data\db*因为启动mongodb服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动创建,而且不能启动成功- 命令行下运行 MongoDB 服务器原创 2020-09-12 16:00:35 · 492 阅读 · 0 评论 -
mogodb在linux上安装
拖取压缩包解压修改名字创建 data logs 目录MongoDB的数据存储在data目录的db目录下,但是这个目录在安装过程不会自动创建,所以你需要手动创建data目录,并在data目录中创建db目录以下实例中我们将data目录创建于根目录下(/)注意:/data/db 是 MongoDB 默认的启动的数据库路径(–dbpath)vi conf/mongod.conf添加:port = 12345dbpath = data/dblogpath = logs/mongod原创 2020-09-11 18:20:23 · 169 阅读 · 0 评论 -
Exception in thread “main“ joptsimple.UnrecognizedOptionException: partition is not a recognized opt
命令错误仔细检查命令输入对没!!!启动nohup bin/kafka-server-start.sh config/server.properties &创建主题bin/kafka-topics.sh --create --bootstrap-server node7-1:9092,node7-2:9092,node7-3:9092,node7-4:9092 --replication-factor 1 --partitions 1 --topic test04查看主题bin/kaf.原创 2020-09-10 17:26:40 · 3632 阅读 · 0 评论 -
Linux基础命令
1.Linux(Linux系统中一切皆文件)和Windows区别 Windows: 付费,占有率低 Linux:安全,稳定,免费 ,占有率高2.Linux发行版 Ubuntu Redhat Fedora openSUSE Linux Mint Debian Manjaro Mageia CentOS Arch3...原创 2019-12-12 22:09:13 · 230 阅读 · 0 评论 -
Spark中实现二次排序
二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果object Demo02 { def main(args: Array[String]): Unit = { //控制日志输出 Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("twosort").setMaster("local") val sc =原创 2020-09-09 09:56:45 · 485 阅读 · 0 评论 -
Spark知识点全总结
1.spark生态:Spark Corespark 的核心计算 ,用于通用分布式数据处理的引擎。不依赖于任何其他组件,可以运行在任何商用服务器集群上。实现饿了 Spark 的基本功能,包含任务调度、内存管理、错误恢复,与存储系统交互等模块。还包含了对弹性分布式数据集(Resilient Distributed Dataset,简称RDD)的API 定义。Spark SQL是Spark用来操作结构化数据的程序包,可以使用SQL或者HQL来对历史数据做交互式查询(即席查询:用户根据自己的需求 自定义原创 2020-09-09 10:57:27 · 2956 阅读 · 0 评论 -
Spark提交流程
① 打包程序为 xxx.jar,上传到某个节点上② 执行一个 `SparkSubmit` ,在SparkSubmit中,会写各种配置信息(--master、CPU、内存)③ 以 `client` 模式为例,会在提交的节点上启动一个 driver进程④ Driver就是我们的 `application`,Wordcount⑤ 创建 `SparkContext` 对象,会在内部创建(`DAGscheduler`,`Taskscheduler`)⑥ 在driver中,代码如果遇到了 `actio原创 2020-09-08 17:00:06 · 416 阅读 · 0 评论 -
数据仓库知识点
什么是数据仓库?数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库 数据库是长期存储在计算机内、有组织的、共享的数据集合.数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点,并可在一定范围内为多个用户共享数据仓库定义面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策.面向主题:在较高层次上将企业的信息系统的数据综合归并进行分析利用的抽象的概念.每个主题基本上对应一个相应的分析领域(BI原创 2020-07-31 20:42:25 · 485 阅读 · 0 评论 -
hive入门介绍及应用
一.为什么要使用Hive? hadoop中的mr有缺点(Mapper:的输出,就是把键相同的合并起来;sql:语句; Reduce:诊对一个键相同的多个值,进行处理;聚合函数;(词频:sum);(order by))需要自己编程,不方便,hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库...原创 2020-07-31 19:35:58 · 339 阅读 · 0 评论 -
Zookeeper入门知识总结
显示所有操作命令:help 使用ls命令来查看当前znode中所包含的内容:ls path [watch] 查看当前节点数据并能看到更新次数等数据:ls2 path [watch] 普通创建:create 含有序列:-s 临时(重启或者超时消失):-e 获得节点的值:get path [watch] 设置节点的具体值:set 查看节点状态:stat 删除节点:delete 递归删除节点:rmr 查看历史命令:histo原创 2020-01-02 21:09:49 · 292 阅读 · 1 评论 -
Hadoop知识点问题总结
1.简单描述你对Hadoop集群SafeMode模式的理解? 集群处于安全模式,不能执行重要操作(写操作),集群属于只读状态;但严格来说,只 是保证HDFS元数据信息的访问,而不保证文件的访问;集群启动完成后,自动退出安 全模式,如果集群处于安全模式,想要完成写操作,需要离开安全模式 查看安全模式状态:bin/hdfs dfsadmin -safem...原创 2020-01-02 18:46:17 · 285 阅读 · 0 评论 -
HDFS原理简介及功能
简单描述Shuffle过程环形缓冲区的作用?key,value从map()方法输出,被outputcollector收集通过getpartitioner()方法获取分区号,在进入环形缓冲区。默认情况下,环形缓冲区大小值为100MB。当map输入的数据进入环形缓冲区的量达到80MB以上时,那么开始执行溢写过程,溢写过程中如果有其他数据进入,那么由剩余的百分之20反向写入。溢写过程会根据key,v...原创 2019-12-29 20:36:49 · 833 阅读 · 0 评论 -
Hadoop-MapReduce入门
1.mapreduce定义和优缺点?MapReduce定义:是一个分布式运算程序的编程框架,是用户开发”基于hadoop的数据分析应用”的核心框架。核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在hadoop集群上优点:1、易于编程它简单实现一些接口,就可以完成一个分布式程序,这个分布式可以分布到大量廉价的pc机器上运行2、良好的扩展性...原创 2019-12-26 20:13:32 · 250 阅读 · 0 评论 -
hadoop相关知识(一)
1.Hadoop1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决,海量数据的存储和海量数据的分析计算问题。3、广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈1.1三大发行版本Apache 最原始的版本,对于入门学习最好Cloudera 在大型互联网企业中用的比较多Hortonworks 文档较好1.2Hadoop的优势...原创 2019-12-22 20:29:09 · 245 阅读 · 0 评论 -
hadoop知识点及安装
1.大数据概念大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产主要解决的是 海量数据的存储、海量数据的分析计算、统一资源管理调度大数据特点:1、volume(大量) 2、velocity(高速) 3、variety(多样) 4、value(低价值密度)2.Had...原创 2019-12-18 20:24:35 · 240 阅读 · 0 评论 -
Shell相关执行脚本命令
1.Shell 中的数组Shell 数组用括号来表示,元素用"空格"符号分割开使用@ 或 * 可以获取数组中的所有元素#获取数组的长度执行脚本:2.运算符(1)“$((运算式))”或“$[运算式]” + , - , *, /, % 加,减,乘,除,取余(2)expr + , - , \*, /, % 加,减,乘,除,取余...原创 2019-12-16 21:03:55 · 423 阅读 · 0 评论 -
Shell相关命令
一.shell1.1 shellshell是一个命令型解释器 他接收应用程序/用户命令,然后调用操作系统内核shell还是一个功能相当强大的编程语言,易编写,易调试,灵活性强1.2 shell解析器Linux提供的Shell解析器有:bash和sh的关系:Centos默认的解析器是:1.3 shell脚本入门(1)创建一个脚本,输出hellow...原创 2019-12-15 20:41:00 · 223 阅读 · 0 评论