大数据
文章平均质量分 88
无影风Victorz
纸上得来终觉浅,绝知此事要躬行 https://github.com/vicotorz
展开
-
《ClickHouse原理解析与应用实践》知识梳理
每个列字段的数据会被存储在对应的[Column].bin文件中,如果一个列字段被Nullable类型修饰后,会额外生成一个[Column].null.bin文件,专门保存它的Null值,意味着读取和写入需要一倍的额外文件操作。INSERT查询最终转换为Block数据块,单个数据块的写入过程具有原子性,每个数据块最多可以写入1048576行数据(由max_insert_block_size参数控制)MergeTree在写入一批数据时,数据总会以数据片段的形式写入磁盘,且数据片段不可修改。.........原创 2022-07-29 20:59:27 · 1274 阅读 · 0 评论 -
Flink内核与原理(Flink知识梳理二)
Flink技术架构Flink运行架构Flink流批一体的统一:Flink应用的基本套路:DataStream体系:DataStream 转化关系:环境对象:执行环境:运行时环境:RuntimeEnvironment:在Task开始执行时进行初始化,把Task运行相关的信息封装在该对象中SavepointEnvrionment:是Environment 的最小化实例,在状态处理器的API中使用运行时上下文:RuntimeContext 是Function运行时的上下文,封装了Function运行时可能需要的所原创 2022-07-13 22:47:28 · 351 阅读 · 0 评论 -
【Hive】Inspector
ObjectInspector帮助我们研究复杂对象的内部结构,解耦了数据使用和数据格式,从而提高了代码的复用度。一个ObjectInspector实例代表了一个类型的数据在内存中存储的特定类型和方法。一个ObjectInspector对象本身并不包含任何数据,它只是提供对数据的存储类型说明和对数据对象操作的统一管理或者是代理ObjectInspector接口使得Hive不拘...原创 2020-01-06 21:50:16 · 267 阅读 · 0 评论 -
【Hive】HiveServer & HiveServer2 对比
HiveServer1的限制:用户并发性(不能处理多余一个客户端的并发请求)、LDAP安全性集成、HiveServer使用的Thrift接口导致限制HiveServer2在Hive1.1引入(HIVE-2935),提供更好的并发性、安全性、远程访问HiveServer2 架构基于一个ThriftService和任意数量由驱动程序、编译器和执行器组成的会话。MetaStore也是Hi...原创 2020-05-07 21:33:20 · 955 阅读 · 0 评论 -
【Hive】Hive数据倾斜
数据倾斜:hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案(1)key值发生倾斜,key值包含很多空值或异常值赋一个随机值来分散key,如果不需要也可以过滤掉或不适用该keyselectcasewhenuserid...原创 2019-10-29 00:09:32 · 284 阅读 · 3 评论 -
Hadoop学习笔记(四)(Hive)
Hive:解决结构化日志数据统计问题,构建在数据仓库中,定义了HQL语言(类似SQL)通常进行离线数据处理 统一元数据管理 有超大数据集设计的计算,存储扩展能力 Hive底层的执行引擎有:MapReduce、Tez、Spark Hive on MapReduce Hive on Tez Hive on SparkHive支持多种压缩格式、存储格式压缩...原创 2018-08-31 19:34:25 · 502 阅读 · 0 评论 -
Hadoop学习笔记(五)(MapReduce)
MapReduce优点:海量数据离线处理,易开发,易运行MapReduce的局限性:1)代码繁琐;2)只能够支持map和reduce方法;3)执行效率低下;4)不适合迭代多次、交互式、流式的处理; wordcount: 统计文件中每个单词出现的次数需求:求wc1 ) 如果文件内容小:shellcat hello.txt | sed 's/[,.:;/!?]/...原创 2018-08-31 20:05:40 · 460 阅读 · 0 评论 -
【错误处理】hadoop hdfs 读写错误解决:java.io.IOException: Filesystem closed
报错信息:java.io.IOException: Filesystem closed参考:https://blog.csdn.net/posa88/article/details/41018031?utm_source=blogxgwz7参考:https://blog.csdn.net/qiumengkai/article/details/48682143?utm_source=blo...原创 2019-05-22 22:11:26 · 4142 阅读 · 0 评论 -
Hadoop权威指南:知识梳理(一)
第一章:初识HadoopMapReduce三大设计目标:为只需要短短几分钟或几个小时就可以完成的作业提供服务 运行于同一个内部有高速网络连接的数据中心内 数据中心内的计算器都是可靠的、专门的硬件提供Hadoop支持的公司:Cloudera、Hortonworks、MapR等MapReduce: input --> map --> shuffle --> r.........原创 2019-09-16 22:35:59 · 1145 阅读 · 0 评论 -
【Hive】开源Hive基准测试工具使用(hive-testbench-hive14)
Hive基准测试工具工具,可用来造数测试Hive基本性能Github:https://github.com/hortonworks/hive-testbench/TPC-DS:提供一个公平和诚实的业务和数据模型,99个案例 TPC-H:面向商品零售业的决策支持系统测试基准,定义了8张表,22个查询wget https://github.com/hortonworks/hive-tes...原创 2019-04-21 00:53:41 · 3688 阅读 · 0 评论 -
Hadoop学习笔记(八)(SparkSQL概述)
Hive: 类似于sql的Hive QL语言, sql==(转换)==>mapreduce 特点:底层是mapreduce,效率不高 改进:执行引擎更换:hive on tez、hive on spark、hive on mapreduceSpark:hive on spark ==> shark(hive on spark) shark翻译成RDD组件Sha...原创 2018-10-26 22:15:57 · 682 阅读 · 0 评论 -
Hadoop Delegation Tokens详解
转载自:《Hadoop Delegation Tokens详解》 https://www.jianshu.com/p/617fa722e057本文是cloudera公司的一篇技术博客,原文地址:Hadoop Delegation Tokens Explained译文Hadoop Security在2009年被设计并实现,此后趋于稳定。但是,由于相关文档不足,当出现问题时很难理解并进行d...转载 2019-07-30 23:24:49 · 2382 阅读 · 0 评论 -
【Hive】Hive补充(HcatLog、CBO、压缩方式)
参考《Hive实战》ASF是一个支持多种软件开发项目的组织Hive不是数据库,而是一个友好且为我们熟悉的接口,可以查询存储在HDFS上的底层数据文件SerDe:序列化、反序列化HCatlog促进了各种Hadoop组件之间实现模式共享,HCatlog的作用包括:为多种工具提供一种通用模式环境 允许各种工具通过连接器连接,进而从Hive仓库读取数据和向其写入数据 使用户可以.........原创 2019-07-31 00:08:33 · 1412 阅读 · 0 评论 -
【Hive】Hive内核思考--HiveServer2与MetaStore交互
https://imcoder.site/a/detail/HuQSdax;jsessionid=52D29613D30DB508B778A3EC483CD3F7图访问逻辑:metastore服务可以理解为就是thrifht服务,hiveserver2启动的时候实际上是开启ThriftCliService服务客户端去连hive服务的时候是通过jdbc连接hive然后连接metasto...原创 2020-02-02 12:42:34 · 769 阅读 · 2 评论 -
Hadoop权威指南:知识梳理(二)
第12章 关于AvroApache Avro 独立于编程语言的数据序列化系统,支持压缩、可切分意在解决Hadoop中Writable类型的不足:缺乏语言的可移植性Avro模式通常用json编写Avro有丰富的模式解析能力,读数据所用的模式不必与写数据所用的模式相同Avro定义了少量的基本数据类型,通过编写模式的方式,可以被用于构建应用特定的数据结构基本类型:.........原创 2019-09-16 23:21:50 · 581 阅读 · 0 评论 -
【Hive】Hive返回码状态含义
返回码意义:code=0 job成功执行code=1 提交job失败 或者 job运行时抛出异常时会返回的异常码code=2 提交job和运行job时没有抛出异常,但是job运行时map阶段或者reduce阶段抛出RuntimeExeception时会抛出的异常, 一般是各operator处理具体每一行数据时出现的Hive异常code=3...原创 2019-09-16 23:38:40 · 1137 阅读 · 0 评论 -
【Hive】Hive高级聚合(grouping sets、rollup、cube)
Hive高级聚合(0.10开始支持)高级聚合功能相当于group by 加强grouping sets:多个group by 进行union all,在同一个数据集进行多重group by 该关键字可以实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达,它仅仅使用一个stage完成这些操作。GRO...原创 2019-09-17 23:14:00 · 1275 阅读 · 0 评论 -
【Hive】UDF 笔记
UDF分为两大类:UDAF(用户自定义聚合函数)和UDTF(用户自定义表生成函数)Hive有两个不同的接口编写UDF程序。一个是基础的UDF接口,一个是复杂的GenericUDF接口。org.apache.hadoop.hive.ql. exec.UDF 基础UDF的函数读取和返回基本类型,即Hadoop和Hive的基本类型。如,Text、IntWritable、LongWritable、...原创 2018-08-25 09:37:46 · 887 阅读 · 0 评论 -
【错误处理】Could not find any valid local directory for xxxx
Could not find any valid local directory for xxxx经过分析查询,是本地hadoop.tmp.dir或者最终输出data目录存储空间不足造成的。删除/tmp目录下的文件再次执行,执行成功!...原创 2019-04-21 00:47:38 · 2220 阅读 · 0 评论 -
开源Zookeeper搭建
(1)下载zookeeperwget archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz(2)安装Java环境下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html安装方法:https:...原创 2019-04-21 00:41:21 · 136 阅读 · 0 评论 -
实时流处理学习(二)-Flume
http://flume.apache.org/Flume概述:Flume is a distributed(分布式地), reliable(可靠地),and available(可用地) service for efficiently collecting(收集), aggregating(聚合), and moving(移动) large amounts of log data....原创 2018-10-14 00:10:23 · 671 阅读 · 0 评论 -
实时流处理学习(一)
MapReduce 适合离线批处理实时流处理产生背景:时效性高 数据量大实时计算与流计算对比:实时计算:延迟性低 流式计算:不断产生的数据流上计算==综合==>实时流式计算离线计算与实时计算的对比:1) 数据来源离线:HDFS 历史数据,数据量比较大实时:消息队列(Kafka),实时新增/修改记录过来的某一笔数据2) 处理过程离线:MapRe...原创 2018-10-13 17:57:02 · 905 阅读 · 0 评论 -
Hadoop学习笔记(二)(HDFS)
hdfs基本架构:1 Master(NameNode/NN) 带 N个Slaves(DataNode/DN)1个文件会被拆分成多个Blockblocksize:128M130M ==> 2个Block: 128M 和 2MNN(NameNode):1)负责客户端请求的响应2)负责元数据(文件的名称、副本系数、Block存放的DN)的管理DN(DataNode):1)存...原创 2018-08-29 17:46:50 · 192 阅读 · 0 评论 -
Hadoop学习笔记(一)(Hadoop简介与环境搭建)
Hadoophttp://hadoop.apache.org/对于Apache的顶级项目来说,projectname.apache.orgHadoop: hadoop.apache.orgHive: hive.apache.orgSpark: spark.apache.orgHBase: hbase.apache.org为什么很多公司选择Hadoop作为大数据平台的解决方案?1...原创 2018-08-29 17:29:09 · 209 阅读 · 0 评论 -
【错误处理】Hive报错:For direct MetaStore DB connections, we don't support retries at the client level
在使用hive时,出现了这样的错误:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connections, we don't support retries at the clien...原创 2018-08-31 19:40:08 · 1666 阅读 · 3 评论 -
Hadoop学习笔记(三)(YARN)
Hadoop1.x时:MapReduce:Master/Slave架构,1个JobTracker带多个TaskTrackerJobTracker: 负责资源管理和作业调度TaskTracker: 定期向JT汇报本节点的健康状况、资源使用情况、作业执行情况; 接收来自JT(JobTracker)的命令:启动任务/杀死任务缺点:JobTracker单点故障 &节点...原创 2018-08-31 19:26:29 · 333 阅读 · 0 评论 -
【Hive】Hive元数据库介绍及信息查看
转载@dabokele在安装Hive时,需要在hive-site.xml文件中配置元数据相关信息。与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS上,也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的文件。这里说到的元数据可以理解成hive中用于保存数据库、表、分区或者表字段等基本属性,以及这些属性与HDFS文件对应关系的一个映射。 这些映射关系比较常见的一...原创 2018-08-20 17:23:08 · 21830 阅读 · 1 评论 -
hive update和delete报错Attempt to do update or delete using transaction manager
转载自@levy_cui默认在hive中没有默认开启支持单条插入(update)、更新以及删除(delete)操作,需要自己配置。而在默认情况下,当用户如果使用update和delete操作时,会出现如下情况:hive>update dp set name='beijing' where id=1159;FAILED:SemanticException [Error1029...转载 2018-08-17 10:00:24 · 19096 阅读 · 4 评论 -
【Hive】开源Hive研究
待整理......时间 版本2009/4/30 0.3.02009/10/12 0.4.02009/12/17 0.4.12010/2/23 0.5.02010/10/29 0.6.02011/3/29 0.7.02011/6/21 0.7.12...原创 2018-10-22 23:00:08 · 495 阅读 · 0 评论 -
【Hive】《Hive编程指南》梳理
转载请注明出处第1章 基础知识Hive不支持事务(标注:低版本不支持,高版本ACID支持)Hive不支持OLTP(联机事务处理)所需要的关键功能,而更接近成为一个OLAP(联机分析技术)工具。MapReduce是一种计算模型,该模型可将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务。Hive的优点:Hive不仅提供了一个熟悉SQL的用户所熟悉的...原创 2018-10-09 23:49:59 · 2866 阅读 · 2 评论 -
实时流处理学习(五)- SparkStreaming 进阶(状态算子、写入mysql、window、黑名单过滤)
待深入......代码地址:https://github.com/vicotorz/sparkStreaming带状态的算子:Update StateByKey 状态的累加 如果使用了stateful的算子,就必须设置checkpoint(可供检查每个批次状态的临时文件)import org.apache.spark.SparkConfimport org.apache.sp...原创 2019-03-23 21:23:09 · 405 阅读 · 0 评论 -
【Hive】Hive Hooks
转载自https://blog.csdn.net/rlnlo2pnefx9c/article/details/818442171. 什么是Hoooks?Hook是一种在处理过程中拦截事件,消息或函数调用的机制。 Hive hooks是绑定到了Hive内部的工作机制,无需重新编译Hive。从这个意义上讲,提供了使用hive扩展和集成外部功能的能力。换句话说,Hive hadoop可用于在查询......转载 2019-03-29 16:58:59 · 1862 阅读 · 0 评论 -
实时流处理学习(四)- SparkStreaming
核心概念:(1) StreamingConext通过StreamingContext可以做定义输入源等事情。StreamingContext启动后不能重启 一个StreamingContext只能存活在一个JVM中 一个SparkContext可以用来创建多个StreamingContext(2) DStream(Discretiezed Streams)Spark...原创 2019-02-21 23:42:28 · 371 阅读 · 0 评论 -
Hadoop学习笔记(七)(Spark编译与配置)
Spark源码编译:mvn编译命令:./build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean packagespark内置编译方式,编译后可以部署#推荐使用:./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -P...原创 2018-10-26 21:26:16 · 308 阅读 · 0 评论 -
Hadoop学习笔记(六)(Spark + Flink + Beam)
spark:计算框架(速度,易用,通用性) Mapreduce是进程级别的,Spark是线程级别的Spark生态系统:DBAS(Berkeley Data Analytics Stack)Mesos,HDFS,Tachyon(基于内存的文件系统),Spark(核心)自框架:Spark Streaming,GraphX,MLib,SparkSQL外部交互:...原创 2018-10-26 21:11:09 · 1293 阅读 · 0 评论 -
Spring集成Hadoop实践
在Spring中集成Hadoop流程梳理:(1)maven添加spring-data-hadoop依赖<dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-hadoop</artifactId> &...原创 2018-10-26 21:03:33 · 7400 阅读 · 0 评论 -
Scala学习梳理
第1章 概述Scala是一个编译型的静态类型语言Scala REPL:Read(读)、Evaluate(执行)、Print(打印)、Loop(循环)第2章 处理数据:字面量、值、变量和类型Scala编译器将从赋值判断这个值的类型,这个过程称为类型推导命名:Scala中的名字可以使用字母、数字和一些特殊的操作符字符Scala不准许从高等级类型转换成低等级类...原创 2018-10-21 15:46:02 · 707 阅读 · 0 评论 -
实时流处理学习(三)-Kafka
kafka网站: kafka.apache.orgkafka特性: 发布与订阅 + 数据流高效处理 + 多副本方式存储kafka架构producer:生产者 consumer:消费者 broker:篮子 topic:主题(标签),给馒头打标签,A馒头给你吃的,B馒头是给弟弟吃的kafka中的每一条记录都有:key + value ...原创 2018-10-16 23:20:48 · 1598 阅读 · 0 评论 -
【错误处理】HDFS出现的问题:File /hdfsapi/test/a.txt could only be replicated to 0 nodes instead of
最近在阿里云上进行伪分布式Hadoop开发,在本地windows的java程序对HDFS进行访问时,出现了如下问题: File /hdfsapi/test/a.txt could only be replicated to 0 nodes instead of minReplication (=1)经过多方查询,了解到问题的原因:客户端操作hdfs时候...原创 2018-05-22 21:47:28 · 2042 阅读 · 5 评论