![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
穷目楼
白日依山尽,黄河入海流。欲穷千里目,更上一层楼。
展开
-
Hive修改Parquet存储的表字段类型
Hive数据表的存储支持多种方式,纯文本和Parque其中的两种。纯文本的优势在于简单,可读,缺点在于无压缩,效率;Parque的优势在于计算高效,可压缩的列存储模式,缺点在于比纯文本多了一层定义带来的复杂性。Hive数据表的字段修改,可以通过alter table name change column column_name new_column_name type;进行重命名和(或)类型修改。文本文件由于其天然的简单性,数据中不含有类型信息,完全为数据本身,类型信息完全由Hive进行维护,所原创 2020-08-14 10:33:44 · 2473 阅读 · 0 评论 -
避免Hive和Spark生成HDFS小文件
HDFS是为大数据设计的分布式文件系统,对大数据做了存储做了正对性的优化,但却不适合存储海量小文件。Hive 和 spark-sql是两个在常用的大数据计算分析引擎,用户直接以SQL进行大数据操作,底层的数据存储则多由HDFS提供。对小数据表的操作如果没做合适的处理则很容易导致大量的小文件在HDFS上生成,常见的一个情景是数据处理流程只有map过程,而流入map的原始数据数量较多,导致整个数据处...原创 2020-03-25 09:11:23 · 724 阅读 · 0 评论 -
Hive拉拉扯扯的order by,sort by,distribute by, cluster by
Hive支持两个层面的排序:全局排序部分排序全局排序用order by col [ASC | DESC]实现,效果和传统的RDMS一样,保证最后的数据全局有序。部分排序用sort by col [ASC | DESC]实现,保证同一个reducer处理的数据有序,对于结果数据则表现为局部有序。Hive对用户提供的同样是SQL,但底层实现却和传统数据库有天壤区别,底层实现默...原创 2020-02-18 20:10:57 · 424 阅读 · 0 评论 -
Hadoop的MapReduce
MapReduce是一种计算模型,被广泛使用的开源大数据技术Hadoop中实现了这种模型。对于Hadoop的MapReduce来说,输入和输出都是以key-value键值对的形式体现的。在整个map到reduce的过程中,数据都是以这种形式表现。(input) <k1, v1> -> map -> <k2, v2> -> reduce -> &l...原创 2020-01-10 18:11:45 · 265 阅读 · 0 评论 -
配置Hadoop运行在小内存主机上
想把Hadoop基于Yarn部署到小内存主机上,默认的配置会由于资源不足导致简单的任务也无法执行成功。2019-12-02 14:28:33,989 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1575266850654_00022019-12-02 14:28:33,989 INFO mapreduce.JobSu...原创 2019-12-21 10:41:54 · 1788 阅读 · 2 评论 -
HDFS应知应会的原理
HDFS全称为Hadoop Distributed File System,是一个为大(数据)文件专门设计的分布式文件系统。三大特点高容错,高吞吐量,可使用低成本硬件是HDFS具有的三大特点。高容错HDFS设计之初就假设硬件发生故障是正常现象,因此具备快速检测故障,从故障中恢复的能力,也就是高容错。高吞吐量通过计算邻近数据的理念,一次写入多次读取的数据一致性模型,以及文件分块集群存储,...原创 2019-12-08 23:16:36 · 155 阅读 · 0 评论 -
Hive修改表结构
Hive修改列选项CASCADE|RESTRICT默认为RESTRICT仅改变表,CASCADE同时改变分区。修改列ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFT...原创 2019-08-29 23:49:00 · 1272 阅读 · 0 评论 -
YARN的架构
YARN用于资源管理和任务调度,划分资源管理和任务调度到分离的程序是YARN的基本思想。YRAN由三部分构成:资源管理器(ResourceManager)节点管理器(NodeManager)应用控制器(ApplicationMaster)资源管理器跨机器,跨应用仲裁资源,节点管理器按节点部署,负责监控节点上的资源容器的,节点的资源使用,向资源管理其报告状态。这两者构成了计算框架。应用...原创 2019-09-26 17:28:56 · 152 阅读 · 0 评论