hadoop
Yoga-jiang
在晶赞从事大数据研发工作
展开
-
非常详细地Hive的基本操作和一些注意事项
1.概述 上一章《那些年使用Hive踩过的坑》介绍了Hive的基本架构及原理,加下来介绍Hive的基本操作和一些注意事项。2.基本操作2.1Create Table2.1.1介绍 CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。 EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外转载 2020-11-25 10:43:51 · 721 阅读 · 0 评论 -
重复写文件脚本,测试数据专用
import oswith open(’/opt/bh/hub/flipos_order_info/5/1574611200/2019_order_info.csv’,“a+”) as f1:for i in range(10000):with open(’/opt/bh/hub/flipos_order_info/5/1574611200/20191125_order_info.csv’,...原创 2019-11-28 18:05:52 · 224 阅读 · 0 评论 -
基于Apache Kylin大数据多维查询分析平台实践
https://blog.csdn.net/liuxinli/article/details/84345248转载 2019-11-22 17:17:14 · 215 阅读 · 0 评论 -
Hadoop伪分布式环境搭建
本次主要是对Hadoop Pseudo-Distributed环境搭建做介绍,以下操作都是在root用户下进行。一、软件环境配置1、 VM:VMware-workstationl-v7.1.42、 OS:ubuntu-11.043、 JDK:jdk1.6.0_274、 Hadoop:hadoop-0.20.25、 ssh二、安装JDK转载 2014-05-22 22:42:32 · 443 阅读 · 0 评论 -
hive-学习内容
1 hive的正则匹配搜索表 show table原创 2014-09-18 10:26:33 · 470 阅读 · 0 评论 -
配置Hive
配置HiveHive的配置文件名为hive-site.xml,你可以在Hive安装目录下的conf目录下找到这个文件。如果你发现该目录下没有这个文件,你可以通过复制hive-default.xml.template来生成该文件。当然,你也可以在进入hive时指定参数来明确指明配置文件所在目录。比如:hive --config /home/user/hive-conf你也可以在进入h转载 2014-08-21 16:05:09 · 584 阅读 · 0 评论 -
hive_优化
什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点Hadoop框架的特性•不怕数据大,怕数据倾斜•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的•sum,count,max,min等UDAF,原创 2014-09-10 10:56:06 · 430 阅读 · 0 评论 -
hive 基础内容
(一): Hive 是什么 在接触一个新的事物首先要回到的问题是:这是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put转载 2014-08-29 11:18:26 · 436 阅读 · 0 评论 -
下一代Apache Hadoop MapReduce框架的架构
背景随着集群规模和负载增加,MapReduce JobTracker在内存消耗,线程模型和扩展性/可靠性/性能方面暴露出了缺点,为此需要对它进行大整修。需求当我们对Hadoop MapReduce框架进行改进时,需要时刻谨记的一个重要原则是用户的需求。近几年来,从Hadoop用户那里总结出MapReduce框架当前最紧迫的需求有:(1)可靠性(Reliability)– JobTracker不可靠(转载 2017-04-05 10:09:13 · 675 阅读 · 0 评论