![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
Rudolf__
努力成为有思想的人
展开
-
Kettle将mysql数据导入到Hive 数据类型不支持Decimal
1.我要将mysql的数据迁移到hdfs,使用etl工具Kettle2.在迁移过程中首先启动hadoop和hivehadoop启动start-all.sh,通过方位webui查看相关服务是否启动正常hive启动hive --service metastore &;hive --service hiveserver2 &;查看端口10000是否启动成功,netstat -alnp|grep 10000;3.在kettle写入的步骤报错Error setting value #124原创 2020-11-26 15:30:24 · 827 阅读 · 0 评论 -
CDH 搭建impala,kudu 建表插入数据问题总结
环境前提:cdh安装了hdfs/hive/yarn/zk/impala/kudu,所以集群都启动,且各个服务web-ui都可以访问,kudu-master-ui找不到tservers,端口都启动正确,用netstat -anlp|grep 端口1.impala不能插入数据,unable to find SASL plugin: PLAIN 主要是确实依赖, yum install gcc python-devel yum install cyrus-sasl*2.不能创建kudu表,...原创 2020-11-07 14:55:51 · 1561 阅读 · 1 评论 -
sqoop从mysql导数到hive动态分区
1.创建有dt的普通表homs.oms_order_tmpCREATE TABLE homs.oms_order_tmp(id int,order_id bigint,order_name string,custom string,created_time string,created_by date,updated_time string,updated_by string,status tinyint,day string) COMMENT ‘订单临时表’ STORED As textfile;问题原创 2020-10-17 11:18:14 · 1099 阅读 · 0 评论 -
w-hadoop02
1.0 简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:第一题:1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml ,...原创 2019-06-06 18:21:51 · 266 阅读 · 0 评论 -
w-hadoop01
大数据面试总结大数据基础部分面试题:一.你了解Hadoop吗?讲一下Hadoop中HDFS的读写原理。读:客户端调用FileSystem的open方法,来打开希望读取的文件。FileSystem通过Rpc与namenode通信,namenode将获取到的信息整理,并将文件的所有内容发送给FileSystem对象,所有的副本块都会有对应的datanode位置信息;namenode会根据当前...原创 2019-06-06 18:20:59 · 151 阅读 · 0 评论 -
w-sqoop
sqoopsqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个:导入、迁入导出、迁出导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HDFS,Hi...原创 2019-06-06 18:20:25 · 191 阅读 · 0 评论 -
w-hive-codeView
一、求单月访问次数和总访问次数1、数据说明数据字段说明用户名,月份,访问次数数据格式A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,20...原创 2019-06-06 18:19:41 · 163 阅读 · 0 评论 -
w-hive
Hive数据倾斜原因key分布不均匀业务数据本身的特性SQL语句造成数据倾斜解决方法hive设置hive.map.aggr=true和hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中,Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,并...原创 2019-06-06 18:19:04 · 173 阅读 · 0 评论 -
w-Hive sql编写优化总结2-25
Hive sql编写优化总结Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select … from Ajo...原创 2019-06-06 18:18:31 · 158 阅读 · 0 评论 -
w 数据清洗
etl:数据清洗的一些梳理数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。预处理阶段预处理阶段主要做两件事情:一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。二是看数据。这里...转载 2019-06-06 18:17:39 · 201 阅读 · 0 评论 -
Windows运行Hadoop MapReduce
1 导包<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <vers原创 2018-12-06 23:39:28 · 312 阅读 · 0 评论