大数据
文章平均质量分 93
英雄史诗
这个作者很懒,什么都没留下…
展开
-
到底什么是数据中台?
如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗?普通企业该不该做数据中台?数据中台的出现会给现有数据从业者们带来颠覆式的挑战吗?转载 2022-04-07 16:11:32 · 9153 阅读 · 2 评论 -
hadoop集群配置
1.基础软件1)vmware 12,网络配置2)centos 节省时间,直接下载镜像 3)复制centos镜像2.linux配置 1)查看ip信息 #ifconfig 2)修改网络配置文件,ip获取方式静态 vim /etc/sysconfig/network-scripts/ifcfg-eth0 linux里的bootproto的none,static,dh...原创 2020-04-01 23:03:26 · 152 阅读 · 0 评论 -
【美团技术博客】Hive SQL的编译过程
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有...转载 2019-09-04 17:05:19 · 393 阅读 · 0 评论 -
Hive:索引和模式设计考虑因素
1、索引在指定列上建立索引,会产生一张索引表(Hive的一张物理表),里面的字段包括,索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量;在执行索引字段查询时候,首先额外生成一个MR job,根据对索引列的过滤条件,从索引表中过滤出索引列的值对应的hdfs文件路径及偏移量,输出到hdfs上的一个文件中,然后根据这些文件中的hdfs路径和偏移量,筛选原始input文件,生成新的spli...原创 2019-09-04 15:54:12 · 170 阅读 · 0 评论 -
查看hive的当前参数值
查看当前所有的配置信息hive > set ;hive >set hive.metastore.uris;...转载 2019-09-04 15:46:41 · 6341 阅读 · 0 评论 -
Hive实验5:查看Hql执行计划及关键步骤说明
1、查看执行计划方法语法:explain [extended] Hiveql;/*例子:*/explain select count(distinct mobilename) from testtab_small; 2、执行计划基本要素主要步骤及依赖关系,从上到下各主要步骤关键信息,包括:关键信息关键字说明Map或reduce操作Map Operator...原创 2019-09-04 15:24:54 · 5492 阅读 · 1 评论 -
Hive实验4:MapReduce实现Hive的查询Sql
1、通用元素select 字段:Map里的value值。Reduce不做处理,遍历输出组内每一元素。2、order by全局排序order by : 排序字段当做Map的key,Map中会自动分区、排序。全局:1个Reduce,默认就是1个Reduce protected void map(LongWritable key, Text value, Context contex...原创 2019-09-03 19:56:45 · 1224 阅读 · 0 评论 -
Hive实验3:Hql中的order by与sort by
1、概述[sort by] 是Hql特有的语句,同时Hive也支持rdbms的 [order by]。[sort by] 是局部排序,[order by]是全局排序。ps:还是要回到MapReduce的本质。MapReduce是分治并行,如果数据在多个子任务中执行,则结果只能保证每个任务内排序有效,总结果的每个任务间不保证有序。1.1 对应MapReduce解决方案问题:如何保证整体有序...原创 2019-08-27 11:36:26 · 744 阅读 · 1 评论 -
hive安装实验:win7安装Hive2.3.5使用Mysql8作metastore
1、环境项目版本OSwin7 64位hadoop2.7.4hive2.3.5mysql8.0.131.1介质获取link:Hive2.3.5windows下可执行的bin目录:metastore驱动下载放到HIVE_HOME/lib目录下。另,本机已安装hadoop。2、环境变量HIVE_HOME3、创建HDFS目录 hadoo...原创 2019-08-20 20:19:02 · 736 阅读 · 0 评论 -
Hive实验2_表管理:内部表、外部表、加载导出数据
1、概述要理解Hive中的表,要回溯到Hive的性质。Hive实质是转换器,接收用户输入的类SQL语句,转换成MapReduce作业,类似rdbms的引擎。根本内容还是HDFS和MapReduce作业。所以:表是对HDFS目录的映射,特别类似Oracle的外部表表的创建是在HDFS上创建目录,并在元数据里添加了映射表数据加载、导出就是目录文件的移入、移除。2、内部表 crea...原创 2019-08-23 16:35:01 · 350 阅读 · 0 评论 -
hadoop实验1_64位Win7搭建2.7.4单机hadoop
1.win安装hdp环境环境: Win7 64位 JDK1.8 64位 hadoop 2.7.42.安装需要2个安装包:2.7.4版本hadoop(默认64位)windows环境可执行的bin文件用编译bin覆盖原始的bin目录免安装,解压即可。hadoop2.7.4下载地址:http://archive.apache.org/dist/hadoop/core编译...原创 2019-02-21 11:10:29 · 191 阅读 · 0 评论 -
HBase实验1:Java API读写HBase
概要1)如何获取hbase的连接信息&:hbase的连接信息类似jdbc地址,可通过配置文件,也可写在程序里。写在程序里:Configuration conf=HBaseConfiguration.create();conf.set(“hbase.zookeeper.quorum”,“127.0.0.1”);通过固定位置的配置文件conf.addResource(new P...原创 2019-07-24 11:36:35 · 1573 阅读 · 0 评论 -
HBase基本概念
一、HBase基本概念1、模型的逻辑实体包括6大概念,要始终牢记,基本描述了hbase的基本特点表(table):组织数据。行(row):表里数据按行存储,行键是唯一标示。行键没有数据类型,总是视为字节数组byte[]。列族(column family):行里的数据按列族分组,列族同时确定了物理存放,列族的设计很重要。列限定符(column qualifier):简称列。列族里的数据...原创 2019-07-24 11:32:08 · 839 阅读 · 0 评论 -
hadoop实验1_64位Win7搭建2.7.4单机hadoop_踩过的坑
Failed to locate the winutils binary in the hadoop binary path19/02/12 14:46:42 ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate...原创 2019-02-21 11:33:57 · 278 阅读 · 0 评论 -
《hadoop权威指南》笔记1_基本概念和初识MR
对应第1、2章。1.hadoop特点及与其他分布式系统的对比1)hadoop特点数据本地存储,节省集群带宽资源数据非结构化,写入快适用场景:一次写入,多次读取批处理方式的数据存取线性扩展2)对比OracleRac:共享存储;频繁读写场景;结构化数据。网格计算:并行计算的合并、恢复复杂;hdp是按本地block计算的,无用考虑顺序。志愿计算:主要场景是计算能力,数据交互低...原创 2019-02-19 17:06:44 · 134 阅读 · 0 评论 -
hadoop实验2_hdfs命令行操作
hdfs是hadoop的核心,是hadoop可以本地计算的基础,命令行操作是应该具备的基本能力。总结:命令入口是:hadoop fs 。即都是以此开头,实质是/bin/hadoop.cmd,fs是功能分支,对应org.apache.hadoop.fs.FsShell。fs同级的还有jar、version等。大多命令与linux相同,如ls、cat、tail、rm等与linux不同的,必须...原创 2019-02-22 17:17:22 · 1184 阅读 · 0 评论