大数据处理
文章平均质量分 80
Frank范
这个作者很懒,什么都没留下…
展开
-
Understanding Cascade Left Joins and Writing Complex Queries
Understanding Cascade Left Joins and Writing Complex Queries。原创 2023-07-15 16:54:30 · 302 阅读 · 0 评论 -
Tableau 入门系列之各种图形绘制
Tableau 是一个可视化分析平台,它改变了我们使用数据解决问题的方式,使个人和组织能够充分利用自己的数据。Tableau提供了非常丰富的图表,通过及其强大的功能,使得数据的可视化极其容易。Tableau,至少是我遇到最强大的可视化平台。原创 2022-12-01 23:17:35 · 2578 阅读 · 2 评论 -
大数据入门之Presto/Trino
Presto是由Facebook开发的分布式sql查询引擎,用来进行高速、实时的数据查询。原创 2022-10-05 16:04:32 · 4116 阅读 · 0 评论 -
大数据入门之Sqoop
用于在Hadoop和传统的数据库(Mysql, Postgresql)进行数据的传递。可以通过Hadoop的MapReduce把数据从关系型数据库中导入到Hadoop集群。传输大量结构化或半结构化数据的过程完全是自动化的。sqoop的导入进程是一个自动生成出来的java class,因此它的很多组件都可以自定义,比如导入的格式、文本的格式、到出的格式等等。原创 2022-10-05 15:25:37 · 747 阅读 · 0 评论 -
大数据入门之 Hadoop,HDFS,Hbase,Hive
Hadoop:是泛指大数据生态,实际上基本包括 存储(HDFS) + 计算(MapReduce);HDFS: Hadoop分布式文件系统,主要是解决存储的问题;Hbase: 基于Hadoop的高性能nosql数据库;Hive: 最常用的数据仓库;原创 2022-10-03 23:00:29 · 4703 阅读 · 2 评论 -
如何高效处理分析大文件
题记:我们可能会遇到需要对一个很大的文件的某一行进行去重,排序,或者对两个文件进行合并等。本文主要测试了几种不同的方案,并进行比较。场景: 对4百万数据的CSV文件进行去重测试环境:MacBook ProIntel Core i9 16GB Memory测试文件:# total lines$ wc -l test.csv42013405 test.csv$ ls -lh test.csv-rw-r--r--@ 1 haofan staff 448M Nov 6 22:.原创 2021-11-07 17:19:17 · 1871 阅读 · 0 评论