大数据
文章平均质量分 63
大数据相关
25577033_malong
马龙一枚
展开
-
数据仓库建模理论
数据仓库原创 2022-02-16 10:34:16 · 950 阅读 · 0 评论 -
Hive SQL语法总结
Hive是一个数据仓库基础的应用工具,在Hadoop中用来处理结构化数据,它架构在Hadoop之上,通过SQL来对数据进行操作。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的Hive SQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作原创 2022-02-13 14:12:32 · 446 阅读 · 0 评论 -
Hadoop分布式系统架构详解
导语:hadoop 简单来说就是用 java写的分布式 ,处理大数据的框架,主要思想是 “分组合并” 思想。分组:比如 有一个大型数据,那么他就会将这个数据按照算法分成多份,每份存储在 从属主机上,并且在从属主机上进行计算,主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。合并:将每个机器上的计算结果合并起来 再在一台机器上计算,得到最终结果。这就是mapreduce 算法.Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责H原创 2022-02-06 18:39:57 · 3924 阅读 · 0 评论 -
Hive SQL优化方式及使用技巧
hive sql原创 2022-02-05 14:40:08 · 335 阅读 · 0 评论 -
Apache Flink?
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。开发编辑Apache Flink是由Apache软件基金会内的Apache Flink社区基于Apache许可证2.0开发的,该项目已有超过100位代码提交者和超过460贡献者。 [2] 是由Apache Flink的原创 2021-04-08 14:51:12 · 76 阅读 · 0 评论 -
什么是ClickHouse?
谈起ClickHouse,应该很多人都会很陌生。一来它是一个新生事物,听过的使用过的人非常少;二来可能没有hadoop生态那么完善和健壮,所以稳定性和功能还有所欠缺。但这些都不影响其迅速获得的良好的口碑和开挂的性能,作为特定领域的数据库,极其看好ClickHouse。什么是ClickHouse?这里引用官网的一段话:ClickHouse is a column-oriented database management system (DBMS) for online analytical pro原创 2021-04-08 09:42:11 · 178 阅读 · 0 评论 -
数据分析师,需要具备哪些技能?
1,熟悉可视化辅助工具:如BI工具、python,excel数据分析(内置的数据分析方法)能简化分析过程2,了解大数据处理框架:如hadoop生态技术链(HDFS分布式文件存储系统,Mapreduce分布式计算框架,Yarn资源管理框架,Sqoop数据同步工具,Hbase分布式列存数据库,Zookeeper分布式协作服务,Hive基于Hadoop的数据仓库,spark,storm)3,数据库: SQL, OLTP Database4,数据仓库:SSIS、SSAS5,数据挖掘工具:python,Ma原创 2021-04-07 16:21:37 · 306 阅读 · 0 评论