自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 数据仓库建模理论

数据仓库

2022-02-16 10:34:16 952

原创 Hive SQL语法总结

Hive是一个数据仓库基础的应用工具,在Hadoop中用来处理结构化数据,它架构在Hadoop之上,通过SQL来对数据进行操作。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的Hive SQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作

2022-02-13 14:12:32 450

原创 Hadoop分布式系统架构详解

导语:hadoop 简单来说就是用 java写的分布式 ,处理大数据的框架,主要思想是 “分组合并” 思想。分组:比如 有一个大型数据,那么他就会将这个数据按照算法分成多份,每份存储在 从属主机上,并且在从属主机上进行计算,主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。合并:将每个机器上的计算结果合并起来 再在一台机器上计算,得到最终结果。这就是mapreduce 算法.Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责H

2022-02-06 18:39:57 3932

原创 Hive SQL优化方式及使用技巧

hive sql

2022-02-05 14:40:08 336

原创 BI工具

BI工具即商业智能(Business Intelligence)分析工具的英文缩写。BI即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。代表自商业智能这一领域被开拓以来,国内外BI工具层出不穷。IBM cognos、SAP BO、ora

2021-05-11 10:48:38 140

原创 what is noSQL

NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在处理web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,出现了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,特别是大数据应用难题。基本含义NoSQL最常见的解释是“non-relational”, “Not Only SQL”也被很多人接受。NoSQL仅仅是一个概念,泛指非关

2021-05-11 10:08:29 174 1

原创 如何编写健壮的Bash脚本(经验分享)

shell脚本在运行异常时会受到非常大的影响。本文介绍一些让bash脚本变得健壮的技术。使用set -u因为没有对变量初始化而使脚本崩溃过多少次?对于我来说,很多次。chroot=$1…rm -rf $chroot/usr/share/doc如果上面的代码没有给参数就运行,不会仅仅删除掉chroot中的文档,而是将系统的所有文档都删除。那应该做些什么呢?好在bash提供了set -u,当使用未初始化的变量时,让bash自动退出。也可以使用可读性更强一点的set -o nounset。复制代

2021-04-26 11:00:19 95

原创 Apache Flink?

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。开发编辑Apache Flink是由Apache软件基金会内的Apache Flink社区基于Apache许可证2.0开发的,该项目已有超过100位代码提交者和超过460贡献者。 [2] 是由Apache Flink的

2021-04-08 14:51:12 77

原创 什么是ClickHouse?

谈起ClickHouse,应该很多人都会很陌生。一来它是一个新生事物,听过的使用过的人非常少;二来可能没有hadoop生态那么完善和健壮,所以稳定性和功能还有所欠缺。但这些都不影响其迅速获得的良好的口碑和开挂的性能,作为特定领域的数据库,极其看好ClickHouse。什么是ClickHouse?这里引用官网的一段话:ClickHouse is a column-oriented database management system (DBMS) for online analytical pro

2021-04-08 09:42:11 178

原创 数据分析师,需要具备哪些技能?

1,熟悉可视化辅助工具:如BI工具、python,excel数据分析(内置的数据分析方法)能简化分析过程2,了解大数据处理框架:如hadoop生态技术链(HDFS分布式文件存储系统,Mapreduce分布式计算框架,Yarn资源管理框架,Sqoop数据同步工具,Hbase分布式列存数据库,Zookeeper分布式协作服务,Hive基于Hadoop的数据仓库,spark,storm)3,数据库: SQL, OLTP Database4,数据仓库:SSIS、SSAS5,数据挖掘工具:python,Ma

2021-04-07 16:21:37 310

转载 什么是XML文件

https://blog.csdn.net/weixin_38382105/article/details/80965735

2021-04-07 10:31:48 66

转载 JSP基础概要

https://blog.csdn.net/sdksdk0/article/details/51925232

2021-04-06 17:40:06 63

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除