![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 61
小愚就是小小呀
这个作者很懒,什么都没留下…
展开
-
Hive中的表类型
hive中的表类型hive中是有多种表类型的,可以分为四种:内部表,外部表,分区表,桶表内部表内部表是hive默认表类型,表数据默认存储在warehouse目录中,在加载数据的过程中,实际数据会被移动到warehouse目录中,当删除表时,表的数据和元数据将会被同时删除外部表建表语句中包含external 的表叫外部表,外部表在加载数据的时候,实际数据并不会移动到warehouse目录中,只是与外部数据建立一个链接(映射关系),数据只是表对hdfs上的某一个目录的引用而已,当删除表定义的时候,数据原创 2021-06-15 17:55:10 · 2949 阅读 · 1 评论 -
Hive VS Mysql
hive 和mysql的对比项目hivemysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持支持索引有,但较弱,一般很少用有,经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库 VS 数据仓库数据库:传统的关系型数据库主要应用在事务处理,例如银行交易之类的场景,数据库支持增删改查这些常见的操作。数据仓库:主要做一些复杂的分析操作,侧重决策原创 2021-06-15 11:22:39 · 151 阅读 · 1 评论 -
Flume学习笔记
什么是FlumeFlume是一个高可用,高可靠,分布式的海量日志采集,聚合和传输的系统,能够有效的收集,聚合,移动大量的日志数据。简单的说Flume是一个很靠谱,很方便,很强的日志采集工具。它的特点是不需要写代码,就可以进行工作。如下图,这个属于Flume的典型应用场景,使用Flume采集数据,最终存储到HDFS上。左边的web server表示是一个web项目,web项目会产生日志数据,通过中间的Agent把日志数据采集到HDFS中。其中这个Agent就是我们使用Flume启动的一个代理,它是一个原创 2021-06-08 14:01:28 · 211 阅读 · 0 评论 -
HDFS的常见Shell操作
HDFS介绍设计思想:用户请求查看数据时候会请求主节点,主节点上面会维护所有数据的存储信息,主节点会把对应数据所在的节点信息返回给用户,然后用户根据数据所在的节点信息去对应的节点去读取数据,这样压力就不会全部在主节点上面。HDFS是一种适合大文件存储的分布式文件系统,不适合小文件存储,例如,几KB,几M的文件都可以认为是小文件。hdfs shell 格式如下,url一串内容可以省略,因为hdfs在执行的时候会根据HDOOP_HOME自动识别配置文件中的fs.defaultFS属性。HDFS基础操作原创 2021-05-19 17:37:35 · 92 阅读 · 0 评论 -
什么是hadoop
什么是Hadoophadoop是一个适合海量数据的分布式存储和分布式计算的框架。分布式存储,可以简单理解为存储数据的时候,数据不只存在一台机器上面,它会存在多台机器上面。分布式计算简单理解,就是由很多台机器并行处理数据。Hadoop三大核心组件介绍Hadoop主要包含三大组件:HDPS+MapReduce+YARN。HDFS负责海量数据分布式存储YARN主要负责集群资源的管理和调度MapReduce是一个计算模型,负责海量数据的分布式计算Hadoop客户端节点在实际工作中不建议直接原创 2021-05-18 14:11:40 · 4484 阅读 · 0 评论