大数据
文章平均质量分 66
bigdata_wangzhe
这个作者很懒,什么都没留下…
展开
-
cannal源码分析
@Override public void deserialize(byte[] message, Collector<RowData> out) throws IOException { try { //使用json反序列化器将message反序列化成RowData RowData row = jsonDeserializer.deserialize(message); //获取type字段,用于下面的判断 String type = row.get原创 2021-05-18 17:46:24 · 230 阅读 · 0 评论 -
大数据之phoenix
Phoenix 定义Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。Phoenix 数据存储Phoenix 将 HBase 的数据模型映射到关系型世界Phoenix 表映射默认情况下, 直接在 HBase 中创建的表通过 Phoenix 是查原创 2021-04-21 22:01:25 · 1313 阅读 · 0 评论 -
大数据之Phoenix
Phoenix 定义Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。Phoenix 数据存储Phoenix 将 HBase 的数据模型映射到关系型世界Phoenix 表映射默认情况下, 直接在 HBase 中创建的表通过 Phoenix 是查原创 2021-04-21 21:59:46 · 674 阅读 · 0 评论 -
hive的explain命令
显示抽象语法树EXPLAIN SELECT * from dby_pro.test1;explain该命令可以返回hive的查询执行计划。不需要执行查询。查询计划包含三个部分,1.ASTAbstract syntax tree (AST).抽象语法树。通过ANTLR类库生成。2.Stage dependencies:阶段依赖。用来执行查询的依赖列表。3.Stage plans阶段计划。实例在 hive cli 中输入以下命令(hive 2.3.7):explain select原创 2021-04-16 21:48:28 · 325 阅读 · 0 评论 -
hive语句的书写顺序和执行顺序
1、hive语句的书写顺序:(从前往后)(1)select(2)from(3)join on(4) where(5)group by(6)having(7)distribute by/cluster by(8) sort by(9) order by(10) limit(11) union(去重不排序)/union all(不去重不排序)2、hive语句的执行顺序:(1)from(2)on(3)join(4)where(5)group by(6)having(7)sel原创 2021-04-15 21:31:20 · 1303 阅读 · 0 评论 -
数据倾斜(二)之解决思路
概述数据倾斜的产生是有一些讨论的,解决它们也是有一些讨论的,本章会先给出几个解决数据倾斜的思路,然后对Hadoop和Spark分别给出一些解决数据倾斜的方案。注意: 很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理, 异常值的过滤等,因此笔者认为,解决数据倾斜的重点在于对数据设计和业务的理解,这两个搞清楚了,数据倾斜就解决了大部分了。解决思路解决数据倾斜有这几个思路:1)业务逻辑我们从业务逻辑的层面上来优化数据倾斜,比如上面的两个城市做推广活动导致那两个城市数据量激增的例子原创 2021-04-14 21:27:47 · 117 阅读 · 0 评论 -
数据倾斜(一)之产生原因
数据倾斜产生原因概述我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。一般来说,数据倾斜原因有以下几方面:key分布不均匀业务数据本身的特性建表时考虑不周某些SQL语句本身就有数据倾斜Shuffle与数据倾斜Hadoop和Spark在Shuffle原创 2021-04-13 21:46:30 · 392 阅读 · 0 评论 -
基于大数据分析技术在会计方面的研究
在现如今大数据时代的背景下,有越来越多的企业正经受着数据网络的考验,其中很突出的就是管理會计,作为企业财务中一个重要的组成部分,是持续为企业整合和加工财务资料的职务,管理会计正为企业发展提供强有力的中坚力量。而同时,网络数据流量的飞速发展也使管理会计因此受到不小的冲击,面临时代发展所不能躲避的机遇与挑战。本文探讨如何在大数据时代抓住机遇,解决现阶段管理会计与数据流量的冲突问题,让企业在网络数据时代下能够稳步发展,提高企业运营管理效率。原创 2021-04-11 21:03:59 · 5322 阅读 · 0 评论 -
Spark的transformation算子和action算子总结
Spark的transformation算子1)单ValuemapmapPartitionsmapPartitionsWithIndexflatMapglomgroupByfiltersampledistinctcoalescerepartitionsortBypipe2)双vlaueintersectionunionsubtractzip3)Key-ValuepartitionByreduceByKeygroupByKeyaggregateByKeyfo原创 2021-04-11 00:07:57 · 247 阅读 · 0 评论 -
数据湖和数据仓库区别
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。来源:维基百科。目前,Hadoop是最常原创 2021-04-07 21:40:58 · 471 阅读 · 0 评论 -
数据治理
包括:数据质量管理、元数据管理、权限管理(ranger sentry)。CDH cloudmanager-》sentry; HDP ambari=>ranger数据治理是一个复杂的系统工程,涉及到企业和单位多个领域,既要做好顶层设计,又要解决好统一标准、统一流程、统一管理体系等问题,同时也要解决好数据采集、数据清洗、数据对接和应用集成等相关问题。数据治理实施要点主要包含数据规划、制定数据标准、整理数据、搭建数据管理工具、构建运维体系及推广贯标六大部分,其中数据规划是纲领、制定数据标准是基础、整原创 2021-04-06 23:17:25 · 152 阅读 · 0 评论 -
hdfs总结
Hadoop常用端口号hadoop2.xHadoop3.x访问HDFS端口50070访问MR执行情况端口 80888088历史服务器 1988819888客户端访问集群端口9000Hadoop配置文件Hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slavesHadoop3.x core-site.xml、hdfs-site.xml、mapred-site.x原创 2021-03-30 22:23:22 · 73 阅读 · 0 评论 -
大数据消息队列之kafka
kafka基础架构Kafka工作流程及文件存储机制kafka文件存储kafka producer发送消息流程相关参数:batch.size:只有数据积累到batch.size之后,sender才会发送数据。linger.ms:如果数据迟迟未达到batch.size,sender等待linger.time之后就会发送数据。数据漏消费和重复消费分析无论是同步提交还是异步提交offset,都有可能会造成数据的漏消费或者重复消费。先提交offset后消费,有可能造成数据的漏消费;而先消费后提原创 2021-03-30 22:09:55 · 392 阅读 · 0 评论 -
spark streaming总结
Spark Streaming控制每秒消费数据的速度通过spark.streaming.kafka.maxRatePerPartition参数来设置Spark Streaming从kafka分区每秒拉取的条数Spark Streaming的状态操作在Spark Streaming中存在两种状态操作UpdateStateByKeyWindows操作使用有状态的transformation,需要开启Checkpointspark streaming 的容错机制它将足够多的信息checkpoint原创 2021-03-29 21:28:15 · 151 阅读 · 0 评论 -
sqoop总结
Sqoop参数/opt/module/sqoop/bin/sqoop import \--connect \--username \--password \--target-dir \--delete-target-dir \--num-mappers \--fields-terminated-by \--query "$2" ' and $CONDITIONS;'Sqoop导入导出Null存储一致性问题Hive中的Null在底层是以“\N”来存储,而MySQL中的Null原创 2021-03-29 20:42:01 · 93 阅读 · 0 评论 -
Linux&Shell相关总结
Linux常用命令序号命令命令解释1top查看内存2df -h查看磁盘存储情况3iotop查看磁盘IO读写(yum install iotop安装)4iotop -o直接查看比较高的磁盘读写程序5netstat -tunlpgrep 端口号 查看端口占用情况6uptime查看报告系统运行时长及平均负载7ps aux查看进程Shell常用工具awk、sed、cut、sort...原创 2021-03-28 23:07:52 · 70 阅读 · 0 评论 -
大数据数据湖之hudi
hudi介绍Hudi将带来流式处理大数据, 提供新数据集,同时比传统批处理效率高一个数据量级。特性(1)快速upsert,可插入索引(2)以原子方式操作数据并具有回滚功能(3)写入器之间的快照隔离(4)savepoint用户数据恢复的保存点(5)管理文件大小,使用统计数据布局(6)数据行的异步压缩和柱状数据(7)时间轴数据跟踪血统通过Spark-shell快速开始Spark-shell启动spark-shell启动,需要指定spark-avro模块,因为默认环境里没有,spark-原创 2021-03-28 22:15:48 · 1504 阅读 · 0 评论 -
hbase二级索引sql引擎之Phoenix
Phoenix 定义Phoenix 构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API.在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我们也少写了很多代码.Phoenix 特点将 SQl 查询编译为 HBase 扫描确定扫描 Rowkey 的最佳开始和结束位置扫描并行执行将 where 子句推送到服务器端的过滤器通过协处理器进原创 2021-03-27 23:08:22 · 105 阅读 · 0 评论 -
数据仓库基本概念
主题(Subject)主题就是指我们所要分析的具体方面。例如:某年某月某地区某机型某款App的安装情况。主题有两个元素:一是各个分析角度(维度),如时间位置;二是要分析的具体量度,该量度一般通过数值体现,如App安装量。维(Dimension)维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个Level都会包含一些共有的或特有的属性(Attribute),可以用下图来展示下维的结构和组成:以时间维为例,时间维一般会包含年、季、月、日这几个Level,每个Level一般都会有原创 2021-03-25 21:24:40 · 1194 阅读 · 0 评论 -
OLAP之ClickHouse
clickhouse介绍ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。列式存储IdNameAge1张三182李四223王五34采用行式存储时,数据在磁盘上的组织结构为:1张三182李四223王五34好处是想查某个人所有的属性时,可以通过一次磁盘查找加顺序读取就可以。但是当原创 2021-03-24 15:46:49 · 205 阅读 · 0 评论 -
质量管理策略
质量管理:表级规则(table)表行数,1,7,30天波动率表行数,7天平局波动率30天平均波动率1天波动率7天波动率30天波动率1,7,30天,本月1号波动率表行数,上周期波动率表行数,上周期波动率表大小,1天波动率表大小,7天波动率表大小,上周期差值表行数,上周期差值表行数,固定值表大小,固定值表行数,1天差值表大小,相比1天前差值(字节)比较方式:绝对值波动值比较橙色、红色阈值字段唯一值个数,固定值唯一值个数,1,7,30天波动率空值个数,固定原创 2021-03-23 17:11:29 · 266 阅读 · 0 评论 -
数据采集之cannal
cannal定义Canal是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,Canal主要支持了MySQL的Binlog解析,解析完成后才利用Canal Client 用来处理获得的相关数据。(数据库同步需要阿里的otter中间件,基于Canal)使用场景1)原始场景: 阿里otter中间件的一部分otter是阿里用于进行异地数据库之间的同步框架,canal是其中一部分。2) 常见场景1:更新缓存3)场景2:抓取业务数据新增变化表,用于制作拉链表。4)场景原创 2021-03-22 23:58:47 · 1052 阅读 · 1 评论 -
阿里数据自由之路总结之日志采集
浏览器的页面型产品/服务的日志采集可分为如下两大类。页面浏览(展现)日志采集顾名思义,页面浏览日志是指个页面被浏览器加载呈现时采集的日志。页面交互日志采集当页面加载和渲染完成之后,用户可以在页面上执行各类操作。页面浏览日志采集过程客户端日志采集。日志采集工作 般由 小段被植人页面HTML 文档内的 JavaSc ript 脚本来执行。客户端日志发送。采集脚本执行时,会向日志服务器发起请求,以将采集到的数据发送到日志服务器。服务器端日志收集服务器端日志解析存档。页面交互日志采集原创 2021-03-21 23:51:27 · 279 阅读 · 0 评论 -
Hive代码测试问题汇总
错误提示FAILED: ParseException line 26:29 cannot recognize input near ‘’ ‘’ ‘’ in subquery source解决方法:一般表示“子查询”缺少别名Hive中空值问题处理对于INT类型的数值而言,无论插入值是NULL或‘’,文件中实际存储为\N;然而,对于STRING类型的数值是不同的,插入值分为NULL和‘’,文件中实际存储形式分别为:\N和空。Coalesce和NVL函数Coalesce和NVL只对NULL值有效。.原创 2021-03-21 00:26:00 · 1350 阅读 · 0 评论 -
hadoop命令大全
cat使用方法: hadoop fs -cat URI [URI …]将路径指定文件的内容输出到 stdout示例:- hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2- hadoop fs -cat file:///file3 /user/hadoop/file4chgrp使用方法: hadoop fs -chgrp [-R] GROUP URI改变文件所属的组。使用-R 将使改变在目录结构下递归进行。命令的使原创 2021-03-19 22:38:14 · 692 阅读 · 0 评论 -
Hive报错和解决办法
firstBadLink错误报错:Caused by: java.io.IOException: Bad connect ack with firstBadLink as 192.168.2.24:50010解决方法:动态分区数太多,需要提高文件句柄数,root账户下vi /etc/security/limits.confEnd of filehadoop - nofile 65536metastore报错报错:Binary logging not possible. Message: T原创 2021-03-19 23:26:20 · 1693 阅读 · 0 评论 -
数据采集之flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器的本地磁盘的数据,将数据写入到HDFS。Flume架构AgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成,Source、Channel、Sink。SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包原创 2021-03-17 23:50:27 · 143 阅读 · 0 评论 -
hadoop调优
dfs.replication数据块的副本数,默认值为3dfs.block.sizehdfs数据块大小,默认128M,数据量大的话,可以配置高一些dfs.datanode.balance.bandwidthPeRegionServerecHDFS 做均衡时使用的最大带宽,默认为 1048576,即 1MB/s,对大多数千兆甚至万兆带宽的集群来说过小。不过该值可以在启动 balancer 脚本时再设置,可以不修改集群层面默认值。 目前目前我们产线环境设置的是50M/s~100M/sdfs.dat.原创 2021-03-17 00:33:46 · 139 阅读 · 0 评论 -
Error: recoverUnfinalizedSegments failed for required journal
现象:namenode启动一分钟后又宕机发现问题:同事的误操作导致磁盘100%随即删除一些不需要的东西,并且重新启动,namenode还是无法启动,根据日志怀疑跟安全模式有关Execution of ‘/usr/hdp/current/hadoop-hdfs-namenode/bin/hdfs dfsadmin -fs hdfs://master01:8020 -safemode get | grep ‘Safe mode is OFF’’ returned 1查找问题尝试使用命令sudo原创 2021-03-13 21:48:49 · 1717 阅读 · 2 评论 -
即时查询之kylin
Kylin定义Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin架构REST ServerREST Server是一套面向应用程序开发的入口点,旨在实现针对Kylin平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以通过Restful接口实现SQ原创 2021-03-06 23:11:38 · 404 阅读 · 0 评论 -
即时查询之presto
Presto介绍Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、Oracle的代替品,也不能用来处理在线事务(OLTP)Presto架构Presto优缺点Presto、Impala性能比较https://blog.csdn.net/u012551524/article/details/79124532测试结论:Impala性能稍领先于Presto,但是Pres原创 2021-03-05 22:13:08 · 254 阅读 · 0 评论