大数据相关框架
文章平均质量分 59
大数据面壁者
大数据相关知识分享,框架底层原理机制,生产学习中遇到的相关问题分享,共同学习,共同进步。
展开
-
log4j升级之路
log4j升级之路10.10 阿里公开log4j漏洞详细细节,apache下大部分项目收到影响,java程序员开启梦幻般的升级log4j的加班之旅。初始升级方案修改jvm参数:Dlog4j2.formatMsgNoLookups=true修改配置:log4j2.formatMsgNoLookups=True将系统环境变量FORMAT_MESSAGES_PATTERN_DISABLE_LOOKUPS设置为 true升级版方案10.11 日apache上线log4j 1.15稳定版,开启升原创 2021-12-13 20:39:48 · 1423 阅读 · 1 评论 -
内网穿透简介
内网穿透在本地开发的接口, 只能在局域网使用,公网服务器无法 直接读到这个接口, 只有让接口有公网地址才行.在测试阶段可以使用工具实现内网穿透来解决这个问题.内网穿透的作用通常个人电脑无论是连接WIFI上网还是用网线上网,都是属于局域网里边的,外网无法直接访问到你的电脑,内网穿透可以让你的局域网中的电脑实现被外网访问功能。现有工具目前国内网穿透工具很多,常见的比如花生壳、Ngrok、网云穿等。官网:花生壳:https://hsk.oray.comNgrok: http://www.ng原创 2021-03-26 20:18:36 · 489 阅读 · 0 评论 -
使用maxwell实时采集mysql数据
使用maxwell实时采集mysql数据1. 什么是maxwellmaxwell 是由美国zendesk开源,用java编写的Mysql实时抓取软件。 其抓取的原理也是基于binlog。2. Maxwell与canal的对比Maxwell 没有 Canal那种server+client模式,只有一个server把数据发送到消息队列或redis。Maxwell 有一个亮点功能,就是Canal只能抓取最新数据,对已存在的历史数据没有办法处理。而Maxwell有一个bootstrap功能,可以直接引导原创 2021-03-14 00:06:42 · 2005 阅读 · 0 评论 -
配置canal实时将变化数据Sink到Kafka
配置canal实时将变化数据Sink到Kafkacanal server配置vim /opt/module/canal/conf/重点关注以下配置:canal.ip = hadoop162 # canal服务器绑定ip地址canal.port = 11111 # canal端口号, 将来客户端通过这个端口号可以读到数据canal.zkServers = hadoop102:2181,hadoop103:2181,hadoop104:2181 # zk地址, 用来管理canal的高原创 2021-03-13 23:59:44 · 274 阅读 · 0 评论 -
canal工作原理
canal工作原理mysql的主从复制原理MySQL master 将数据变更写入二进制日志( binary log, 其中记录叫做二进制日志事件binary log events,可以通过 show binlog events 进行查看)MySQL slave 将 master 的 binary log events 拷贝到它的中继日志(relay log)MySQL slave 重放 relay log 中事件,将数据变更反映它自己的数据canal工作原理canal 模拟 MySQL原创 2021-03-13 23:55:04 · 332 阅读 · 0 评论 -
Redis基本常用操作命令
Redis基本操作1. 数据库连接操作2. key的操作Redis中的数据以键值对(key-value)为基本存储方式,其中key都是字符串。3. 常用五大数据类型Redis中的数据以键值对(key-value)为基本存储方式,其中key都是字符串,这里探讨数据类型都是探讨value的类型。...原创 2021-01-26 19:55:22 · 2547 阅读 · 0 评论 -
Redis的持久化操作
Redis的持久化操作一、持久化的目的 将内存中的数据,备份到磁盘!二、RDB2.1 原理RDB: 快照备份,默认自动开启备份: 将内存中的数据,全部(全量)以快照(dump文件)的形式持久化到磁盘!恢复: redis服务在每次启动时,会自动根据配置的dump文件的路径,加载所有的dump文件到内存!过程: 主动备份: ①save (阻塞主进程)/ bgsave (不会阻塞服务端进程,在备份依然可以接收客户端的请求) ②shutdown ③flushall,将flus原创 2021-01-25 23:42:52 · 223 阅读 · 0 评论 -
Redis简介与使用
一、Redis简介Redis:Remote Dictionary Server(远程字典服务器)二、Redis特点使用 C语言开发 ,直接面向操作系统底层短小精悍 ,整个redis一共5w行代码,核心代码只有2w行,性能强劲基于内存单线程(一次只能执行一条命令),多路IO复用(读写速度快)NoSql,没有模式,所有数据都是K-V存储 K(string) - V (8中类型,常用的5种string,list,set,hash,zset(sorted原创 2021-01-25 23:34:25 · 141 阅读 · 0 评论 -
互联网项目架构演变历史
互联网项目架构演变目录互联网项目架构演变一、起源--单机版项目二、改进版本1--Memcache缓存三、改进版本2--MySQL主从读写分离四、改进版本3--MySQL集群五、目前互联网常用架构六、目前互联网的新要求:3V和3高一、起源–单机版项目二、改进版本1–Memcache缓存着访问量上升,大部分使用MySQL架构的网站在数据库上都开始出现性能问题,Web程序不能再仅仅专注在功能上,同时也在追求性能。开始使用缓存技术缓解数据库压力,优化数据库的结构和索引。刚开始时比较流行的是通过文件缓存原创 2021-01-25 23:29:16 · 313 阅读 · 0 评论 -
Kylin使用
Kylin使用①新建一个Project②在工程中,连接Hive,选择感兴趣的表和库③从感兴趣的表和库,进行 建模(星型模型,雪花模型)④从建的模型中定义Cube⑤将定义的Cube执行运算(build)⑥Cube计算完毕,使用SQL进行查询1. 创建工程1)点击下图中的"+"。2)填写项目名称和描述信息,并点击Submit按钮提交。2. 获取数据源1)点击DataSource2)点击下图按钮导入Hive表3)选择所需数据表,并点击Sync按钮3. 创建model1原创 2021-01-24 15:45:16 · 704 阅读 · 0 评论 -
Kylin Cube构建优化
Kylin Cube构建优化目录Kylin Cube构建优化1. 使用衍生维度(derived dimension)2. 使用聚合组(Aggregation group)3. Row Key优化4. 并发粒度优化1. 使用衍生维度(derived dimension)衍生维度用于在有效维度内将维度表上的非主键维度排除掉,并使用维度表的主键(其实是事实表上相应的外键)来替代它们。Kylin会在底层记录维度表主键与维度表其他维度之间的映射关系,以便在查询时能够动态地将维度表的主键“翻译”成这些非原创 2021-01-24 15:36:36 · 147 阅读 · 0 评论 -
Kylin Cube构建原理
Kylin Cube构建原理目录Kylin Cube构建原理1. 维度和度量2. Cube和Cuboid3. Cube存储原理4. Cube构建算法1)逐层构建算法(layer)2)快速构建算法(inmem)1. 维度和度量维度:即观察数据的角度。比如员工数据,可以从性别角度来分析,也可以更加细化,从入职时间或者地区的维度来观察。维度是一组离散的值,比如说性别中的男和女,或者时间维度上的每一个独立的日期。因此在统计时可以将维度值相同的记录聚合在一起,然后应用聚合函数做累加、平均、最大和最小值等聚合原创 2021-01-24 15:02:14 · 229 阅读 · 0 评论 -
使用Rest方式请求构建kylinCube的脚本
#!/bin/bash#要构建的cube的名称cube_name=order_newif [ -n "$1" ]then do_date=$1else do_date=`date -d '-1 day' +%F`fi#获取00:00时间戳,服务端默认是UTC时间,需要+8h转GMT+8时间 date -d 'xx' +%s 将当前日期格式化为举例1970-1-1 的秒数start_date_unix=`date -d "$do_date 08:00:0原创 2021-01-24 14:42:29 · 164 阅读 · 0 评论 -
使用Zepplin连接Kylin进行数据可视化分析
使用Zepplin连接Kylin进行数据可视化分析1)Zepplin安装与启动(1)将zeppelin-0.8.0-bin-all.tgz上传至Linux(2)解压zeppelin-0.8.0-bin-all.tgz之/opt/module[hadoop@hadoop102 sorfware]$ tar -zxvf zeppelin-0.8.0-bin-all.tgz -C /opt/module/(3)修改名称[hadoop@hadoop102 module]$ mv zeppelin-0.原创 2021-01-24 14:21:59 · 396 阅读 · 0 评论 -
使用JDBC方式读取Kylin结果
使用JDBC方式读取Kylin结果一、准备依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/原创 2021-01-24 12:54:07 · 229 阅读 · 1 评论 -
Kylin开源版本使用中的报错及解决方法
Kylin开源版本使用中的报错及解决方法1.解决启动报错第一次启动时报错:Constructor threw exception; nested exception is java.lang.ClassCastException: com.fasterxml.jackson.datatype.jsr310.JavaTimeModule cannot be cast to com.fasterxml.jackson.databind.Module解决:vim kylin家目录/bin/find原创 2021-01-24 11:28:08 · 915 阅读 · 0 评论 -
OLAP分类
OLAP分类一、OLAP(online analytical processing)在线分析OLAP(online analytical processing)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。从各方面观察信息,也就是从不同的维度分析数据,因此OLAP也成为多维分析。二、OLAP分类三、OLAP Cube...原创 2021-01-22 16:47:27 · 302 阅读 · 0 评论 -
Hadoop生态圈之即席查询工具Kylin
Kylin简介一、Kylin 定义Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。二、Kylin架构1)REST ServerREST Server是一套面向应用程序开发的入口点,旨在实现针对Kylin平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以原创 2021-01-22 16:42:11 · 632 阅读 · 0 评论 -
Hadoop生态圈之数据安全监控管理Ranger
Ranger概述一、什么是RangerApache Ranger是一个用来在Hadoop平台上进行监控,启用服务,以及全方位数据安全访问管理的安全框架。Ranger的愿景是在Apache Hadoop生态系统中提供全面的安全管理。随着企业业务的拓展,企业可能在多用户环境中运行多个工作任务,这就要求Hadoop内的数据安全性需要扩展为同时支持多种不同的需求进行数据访问,同时还需要提供一个可以对安全策略进行集中管理,配置和监控用户访问的框架。Ranger由此产生!Ranger的官网:https://r原创 2021-01-18 11:45:51 · 1756 阅读 · 0 评论 -
Hive元数据的读取的两种方式
1.直连模式使用JDBC的方式直接去mysql中读取元数据,称为直连模式需要的条件:连接Mysql的驱动,已经放入到$HIVE_HOME/lib下创建连接时,需要有url,username,password,driveClassName,在hive-site.xml中配置<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql:原创 2021-01-17 20:27:57 · 2803 阅读 · 2 评论 -
Hadoop生态圈之元数据管理Atlas
一、Atlas概述Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。表与表之间的血缘依赖字段与字段之间的血缘依赖二、Atlas架构原理...原创 2021-01-17 20:23:08 · 528 阅读 · 0 评论 -
Presto使用注意事项
Presto使用注意事项1. 字段名引用避免和关键字冲突:MySQL对字段加反引号`、Presto对字段加双引号分割当然,如果字段名称不是关键字,可以不加这个双引号。2. 时间函数对于Timestamp,需要进行比较的时候,需要添加Timestamp关键字,而MySQL中对Timestamp可以直接进行比较。/*MySQL的写法*/ SELECT t FROM a WHERE t > '2017-01-01 00:00:00'; /*Presto中的写法*/ SELECT原创 2021-01-17 19:53:17 · 1694 阅读 · 0 评论 -
Presto优化之查询SQL
Presto优化之查询SQL1. 只选择使用的字段由于采用列式存储,选择需要的字段可加快字段的读取、减少数据量。避免采用*读取所有字段。[GOOD]: SELECT time, user, host FROM tbl[BAD]: SELECT * FROM tbl2. 过滤条件必须加上分区字段对于有分区的表,where语句中优先使用分区字段进行过滤。acct_day是分区字段,visit_time是具体访问时间。[GOOD]: SELECT time, user, host FR原创 2021-01-17 19:49:38 · 735 阅读 · 0 评论 -
Presto优化之数据存储
Presto优化之数据存储1. 合理设置分区与Hive类似,Presto会根据元数据信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能。2. 使用列式存储Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。3. 使用压缩数据压缩可以减少节点间数据传输对IO带宽压力,对于即席查询需要快速解压,建议采用Snappy压缩。...原创 2021-01-17 19:00:31 · 594 阅读 · 0 评论 -
Hadoop生态圈之即席查询工具Presto
一、Presto概念presto是一个开源的分布式sql查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询场景。注意:虽然presto可以解析SQL,但他不是一个标准的数据库。不是mysql,oracle的替代品,也不能用来处理在线事务(OLTP),同时presto用的是一套自己的SQL语言,程序员的学习成本高,所以市场占有率并不高。二、Presto架构presto由一个coordinator和多个worker组成。三、Presto优缺点1)优点(1)presto基于内存运算,减原创 2021-01-17 18:23:59 · 1362 阅读 · 1 评论 -
Hadoop生态圈之集群监控技术Zabbix
目录第1章 Zabbix入门1.1 Zabbix概述1.2 Zabbix 基础架构第2章 Zabbix部署2.1 集群规划2.2 准备工作2.3 配置Zabbix yum源(3台节点)2.4 安装Zabbix2.5 配置Zabbix第4章 Zabbix使用4.1 Zabbix术语4.2 Zabbix实战第1章 Zabbix入门1.1 Zabbix概述Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以原创 2021-01-15 21:14:23 · 1081 阅读 · 0 评论 -
Superset可视化之制作地图
1 制作地图1.1 配置Table1.2 配置Chart2 制作饼状图2.1 配置Table此处使用地区主题表——ads_user_topic2.2 配置Chart原创 2021-01-15 20:54:59 · 3428 阅读 · 9 评论 -
Hadoop生态圈之数据可视化报表Superset
第1章 Superset入门1.1 Superset概述Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。1.2 Superset应用场景由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具。第2章 Superset安装及使用Superset官网地址:http://superset.apach原创 2021-01-15 20:23:16 · 1887 阅读 · 4 评论 -
大数据可视化原理
数据可视化理论一.理论数据可视化包含以下三部分:UI:用户界面: html页面,软件,图表服务端程序: 负责接受处理UI界面发起的数据展示请求,处理请求,从数据库中摄取数据! 将数据传输给UI界面,进行显示!数据库: 存储最新产生的数据(hdfs_to_mysql.sh 负责将ads的数据导出到mysql)二、UI: 用户交互界面专业的BI工具(superset,tebleau,powerBI)前端制作页面(灵活)echarts(前端图表可视化库),e原创 2021-01-15 19:23:08 · 1148 阅读 · 0 评论 -
Azkaban配置定时任务与异常邮箱报警
一、定时执行需求:JobA每间隔1分钟执行一次;具体步骤:1)Azkaban可以定时执行工作流。在执行工作流时候,选择左下角Schedule2)右上角注意时区是上海,然后在左面填写具体执行事件,填写的方法和crontab配置定时任务规则一致。3)观察结果4)删除定时调度点击remove Schedule即可删除当前任务的调度规则。二、邮件报警案例2.1 注册邮箱1)申请注册一个126邮箱2)点击邮箱账号=》账号管理3)开启SMTP服务4)一定要记住授权码2.2原创 2021-01-14 15:59:30 · 2490 阅读 · 0 评论 -
Azkaban配置Work Flow案例实操
Work Flow案例实操目录Work Flow案例实操1. Yarm语法简介2. HelloWorld案例3. JavaProcess案例4. 作业依赖案例5. 自动失败重试案例6. 手动失败重试案例1. Yarm语法简介2.0 azkaban支持 properties配置文件,也支持yml配置文件!3.0 azkaban默认支持yml配置文件!yarm语法: yml: 简洁,适合表示层级关系复杂的数据!yml主要使用缩进表示层级关系,一旦下一行出现了缩进,表示下一行是上一行的子原创 2021-01-14 14:03:06 · 1218 阅读 · 0 评论 -
Hadoop生态圈之工作流调度系统Azkaban
Azkaban概述及安装部署一、 Azkaban概论1.1 为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成:Shell脚本程序,Java程序,MapReduce程序、Hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;1.2 常见工作流调度系统1)简单的任务调度:直接使用Linux的Crontab来定义;2)复杂的任务调度:开发调度平台或使用现成的开源调度系统,比如Ooize、Azk原创 2021-01-14 10:32:53 · 461 阅读 · 0 评论