大数据
文章平均质量分 82
羊羊羊羊吃青草
咩~
展开
-
数据密集型应用系统设计(二)
数据复制目的。原创 2022-10-15 19:29:08 · 792 阅读 · 0 评论 -
数据密集型应用系统设计(一)
前四章详细讲了增强数据密集型应用系统所需的一些基本原则,有一定经验的可以跳过,直接读第五章。不然真的浪费时间呀= =原创 2022-10-11 19:03:22 · 619 阅读 · 0 评论 -
Hue源码解析之-数据预览逻辑实现
从hue导入器进入页面调用/indexer/api/indexer//indexer/api/indexer/guess_field_types接口,根据页面选择参数,传递format到后端,{..."format": { "type": "csv", "fieldSeparator": ",", "recordSeparator": "\\n", "quoteChar": "\"", "hasHeader": true, "status": 0 },...}原创 2021-12-06 18:39:25 · 846 阅读 · 0 评论 -
增量处理框架:Hudi
Hudi(Hadoop Upserts and Incrementals)增量处理框架一、工作原理:DFS上对数据进行索引和布局,分为插入更新和增量拉取。存储类型:CopyOnWrite(写时复制):仅使用列文件格式(parquet)存储数据 在写入过程执行同步合并,并更新版本重写文件。即使更新一行,都将重写整个parquet文件,文件越大,花费时间越长。 读视图:快照查询、增量查询MergeOnRead(读时合并):使用列式(parquet)加基于行(avro)的文件格式组原创 2020-12-15 11:51:00 · 1247 阅读 · 0 评论 -
hive静态分区与动态分区 (全网搜索整理笔记)
hive分区。默认是静态分区。分区的好处:将列值作为目录存放数据,这样查询时,根据分区列过滤,只需查询对应目录下的数据,快速定位,查询效率高。Hive的分区方式:Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并非一个实际字段。当在插入数据的时候指定分区,其就是新建一个目录或者子目录,或者在原有的目录上添加数据文件静态分区静态分区分区的值是确定的新增分区或者是加载分区数据时,已经指定分区名creare table if not exist.翻译 2020-07-29 11:44:37 · 222 阅读 · 0 评论 -
sql查询优化与volcano Optimizer
Volcano Optimizer简介:提供了一套sql解析与执行接口,包含sql查询和执行相关任务的执行代码,只需将数据模型翻译 2020-07-12 19:18:28 · 232 阅读 · 0 评论 -
grpc初使用全攻略
grpc里的客户端可以像调用本地对象一样,直接调用另一台机器上服务端的应用一、什么是gRPC在服务端实现一个接口,定义一个服务,指定能被远程调用的方法,并运行一个gRPC服务来处理客户端调用用proto files创建gRPC服务,用protocol buffers消息类型定义方法参数和返回类型。1. 支持的语言:Go、python、ruby、C++、Java、node.js、C#...原创 2020-04-22 23:36:26 · 218 阅读 · 0 评论 -
ELK
ELK是什么?ELK是3个开源产品的组合:ElasticsearchLogstashKibanaElasticsearch是一个基于Lucene搜索引擎的NoSQL数据库。Logstash是一个日志管道工具,接受数据输入,执行数据转换,然后输出数据。Kibana是一个界面层,在Elasticsearch之上工作。另外,ELK栈中还包含称为Beats的日...转载 2020-04-16 22:52:13 · 111 阅读 · 0 评论 -
Kafka-实时数据处理系统
简介Apache Kafka,2011年成为开源Apache项目,然后于2012年成为First-class Apache项目。Kafka是用Scala和Java编写的。Apache Kafka是基于发布订阅的容错消息系统。 它是快速,可扩展和设计分布。优点:可以横向扩展、高可靠,而且还变态快消息结构:Kafka内部是一个消息队列组件一、Broker(代理)Kafka集群...原创 2020-04-16 22:41:30 · 674 阅读 · 0 评论 -
Elasticsearch总结
Elasticsearch总结一、基础整理1. 安装前提:需要安装JAVA。www.java.com下载es,选择对应版本,本文为MACOS:https://www.elastic.co/cn/downloads/elasticsearch选择自己的运行路径,解压,进入解压的文件夹:tar -zxvf elasticsearch-7.4.0-darwin-x86_64.t...原创 2019-10-14 18:26:12 · 178 阅读 · 0 评论 -
文本分析工具:awk
awk:是一种很方便的数据处理的编程语言,用于数据分析并生成报告基本格式:awk [options] ‘program’ fileawk 可选参数 ‘可执行脚本代码’ 文件先举个原创 2018-12-13 16:37:18 · 787 阅读 · 0 评论 -
Hadoop(一)
基础概念是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。从单个服务器扩展到数千个机器,每个都提供本地计算和存储共享存储(分布式存储)抽象的分析接口(分布式分析)适用场景商用硬件:运行与商用服务器上,具有高容错、高可靠性、高扩展性等特点流式数据:写一次,读多次的场景大规模数据不适用场景低延时的数据访问大量的小文件频繁修改文件...原创 2018-11-30 17:07:46 · 126 阅读 · 0 评论