自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 linux使用

tar -czvf 打包压缩后文件 被打包压缩的文件夹。

2023-05-17 15:10:43 89

原创 开源工具吧

pip安装

2023-05-11 13:23:45 124

原创 presto的DDL语句

presto的DDL相关,持续更新中

2023-05-06 13:43:05 279

原创 crontab使用笔记

表示每分钟给1.txt的文件里面追加abc,其中,这个路径是本地的路径,不是hdfs上的。第1列表示分钟1~59 每分钟用*或者 */1表示。在这个文件中输入你要定时执行的脚本的命令。第5列标识号星期0~6(0表示星期天)需要增加sh执行的命令,这样就可以了。第2列表示小时1~23(0表示0点)直接输入:crontab -e。分 时 日 月 周 命令。第3列表示日期1~31。第4列表示月份1~12。

2023-03-29 18:22:55 237

原创 安装两个微信

weindow多开微信

2023-03-29 18:18:38 42

原创 maven中的setting.xml配置文件详解

最详细的xml注解

2023-03-29 16:13:43 4246

原创 数仓(DW)的架构

事实表和维度表

2023-03-28 18:40:18 229

原创 Java对map的key或是value值排序

对map的key或是value值进行排序

2023-03-28 18:32:33 810

原创 Parquet高性能列式存储格式的介绍

列式存储可以快速的读取到想要的列数据,减少IO量

2023-03-28 16:10:04 204

原创 数据仓库建模-分层

数仓的分层不能为了分层而分层。那要怎么分层呢

2022-02-10 21:13:23 3509

原创 hive sql的问题解决

Failed with exception java.io.IOException: rename for src path: hdfs://emr-cluster/user/hive/wareh

2021-07-26 17:06:53 258

原创 Clickhouse优缺点及性能情况

优点:1,为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理;2,数据压缩空间大,减少IO;处理单查询高吞吐量每台服务器每秒最多数十亿行;3,索引非B树结构,不需要满足最左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制ClickHouse全表扫描的速度也很快;4,写入速度非常快,50-200M/s,对于大量的数据更新非常适用。缺点:1,不支持事务,不支持真正的删除/更新;2,不支持高并发,官方建议qps为100,可以通过修改配置文件增加连接数

2021-07-26 15:00:44 10213

原创 python使用小结(持续更新中)

sql中含有特殊符号时要再包一层处理

2021-07-26 14:46:04 250

转载 大数据测试策略

作为一名开发,可能会被问到大数据测试类相关的知识。虽然可能性不大,但是楼主就被问到了一次,当时那个尴尬呀大数据处理的三个特性:大批量实时性可交互另外,数据质量也同样是大数据测试的一个重要维度。因此在进行应用程序测试之前,必须确保数据质量,并且考虑把数据质量作为数据库测试的一部分。涉及数据的各种特性的检验,例如一致性、准确性、重复性、连贯性、有效性及完整性等等。大数据测试大体可以分为三...

2020-04-10 11:20:51 730

原创 hadoop解决大数据问题的步骤

基本步骤(提取数据,存储数据,处理数据)提取数据从各种来源提取数据,例如:RDBM(Relational Database Management Systems)关系数据库管理系统,如 Oracle,MySQL 等。ERPs(Enterprise Resource Planning)企业资源规划(即 ERP)系统,如 SAP。CRM(Customer Relationships Mana...

2020-04-06 12:47:04 685

原创 Hadoop生态圈中的组件和构成

是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS ,Mapreduce和 YARN,但是也有其他组件。1,HDFS(hadoop分布式文件系统)HDFS是hadoop分布式文件系统hdfs是hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障。client:切分文件,访问HDFS,与那么弄得交互,获...

2020-04-05 16:36:21 478

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除