![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 81
老农民挖数据
这个作者很懒,什么都没留下…
展开
-
从HDFS拷贝一个表到系统目录生成CSV
HDFS原创 2016-01-12 16:32:07 · 4017 阅读 · 0 评论 -
impala 最大的坑(说impala慢,是因为你不知道怎么使用它)
接到任务,impala查询慢。坑比较多。。。。。。可能大家看到许多博客写优化的比较多,但我这个坑,好像没有人遇到。优化,我也能列出一些比如:1.分区不能超过1w多2.要执行compute stats xxx 表3.join时,把小表写前面,会把小表广播到其他节点。4.选择parquert 格式存储。5.xxx 6.xxxxx 貌似以原创 2017-07-12 17:17:55 · 20121 阅读 · 2 评论 -
Permission denied: user=root, access=WRITE,inode=
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x at org.apache原创 2017-08-04 14:51:41 · 13134 阅读 · 2 评论 -
重启HDFS报错
修改了hdfs默认参数重启报错查看报错日志查看slave01 目录权限赋权重启[root@slave01 run]# chown hdfs:hadoop hdfs-sockets[root@slave01 run]# ls -ltotal 100-rw-r--r-- 1 root root 5 Au原创 2017-08-04 15:00:50 · 567 阅读 · 0 评论 -
Unexpected error. Unable to verify database connection CDH 5.10.0
5.10.0 和之前版本不一样,hue要存元数据库, CM的服务端是用Java编写的,而CM的客户端是Python编写的,这里测试连接时是用Python去连接数据库 ,而python是默认的2.6.6, 这里没有关系。 这里也是cm一大败笔,增加了复杂度。找到安装包rpm -ivh compat-mysql51-5.1*.rpm原创 2017-08-04 15:43:47 · 10962 阅读 · 6 评论 -
maven 创建第一个hbase测试代码
代码是从别个博客搞来的,在测试过程中遇到些问题,那么我们看怎么解决。package TestHbaseClient.TestHbaseClient2;import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configu原创 2017-07-28 16:47:07 · 514 阅读 · 0 评论 -
impala-shell导入导出
impala-shell导入导出(tip:将select * from config.price_test limit 3,替换为需要导出的查询sql即可,分割符号可以自选)参数说明: • -q query (--query=query) 从命令行执行查询,不进入impala-shell • -d default_db (--database=default_d原创 2017-07-28 17:47:35 · 9404 阅读 · 0 评论 -
CDH 5.10 取消kerbers认证
登录7180管理平台,在各组件配置页面,执行下面操作Hbase修改hbase.security.authentication为simple,取消勾选hbase.security.authorizationHDFS修改hadoop.security.authentication为simple,取消勾选hadoop.security.authorization,将datanode的原创 2017-09-23 16:46:14 · 1321 阅读 · 0 评论 -
impala 不可轻易更换列类型
1.建表[slave01:21000] > use tmp;Query: use tmp[slave01:21000] > create table ml_2(a int ,b double,c varchar(10));Query: create table ml_2(a int ,b double,c varchar(10))Fetched 0 row(s) in 0.17s[原创 2017-10-11 15:14:44 · 4393 阅读 · 1 评论 -
hadoop集群之间迁移分区表
这里集群的分区表是指的hive/impala表, 表存储格式是parquet.迁移的时候是指文件的拷贝。下面我做一个案例演示。 如果有大量的表要迁移,可以写一个java程序,多线程控制。1.查看源集群的表位置[root@slave01 ~]# hadoop fs -du -h /user/hive/warehouse/prestat.db/dt_differ_users_pre原创 2017-12-18 16:12:49 · 1867 阅读 · 0 评论 -
HBase概念及表格设计
HBase概念及表格设计1. 概述(扯淡~)HBase是一帮家伙看了Google发布的一片名为“BigTable”的论文以后,犹如醍醐灌顶,进而“山寨”出来的一套系统。由此可见: 1. 几乎所有的HBase中的理念,都可以从BigTable论文中得到解释。原文是英语的,而且还有不少数学概念,看了有点儿懵,建议网上找找学习笔记看看,差不多也就可以入门了。转载 2018-02-07 17:29:15 · 222 阅读 · 0 评论 -
impala refresh 分区表
大家都知道compute stats 指令是impala神兵,这里就不累述。莫非就是compute stats xxx表show table stats xx表show column stats xx表分区表,如果你执行compute stats, 那你可以去财务领取200元, 这个和invalidate metadata 后面不带表名一样的效果。整个集群会hang住,io,cpu都会上来。所以你...原创 2018-02-08 10:08:21 · 2033 阅读 · 0 评论 -
对于parquet格式, 修改了字段类型又如何
注:图来自info官网[slave01:21000] > create table ml_123 (a int,b varchar(10)) STORED AS PARQUET ;Query: create table ml_123 (a int,b varchar(10)) STORED AS PARQUETFetched 0 row(s) in 0.07s [slave01:21...原创 2018-03-14 11:40:48 · 6108 阅读 · 0 评论 -
parquet和textfile存储对比
有人说parquet是列存储,textfile 是行存储(类似关系型数据库oracle表),那么我半信半疑,那么我们试试看。我有个毛病,听别人说,没有底气,凡事都想自己尝试,拿事实说话。1.先试试parquet表create TABLE prestat.stat_nps_user_week_test ( timevalue TIMESTAMP, imsi STRING, msis...原创 2018-04-11 15:00:33 · 6191 阅读 · 0 评论 -
大数据详单表存储、查询方案
详单表采用分区表(外部表), 在查询时,引擎用的impala,偶尔会出现卡住的情况,影响用户体验。 正常情况3-5秒出数据,卡住就不好说了,有时120秒,有时150秒,,,,,,,,,,,有3种方案:1.当天的数据就让其实时入库, 昨天以及之前的数据,分表存储(迁移到另外的历史表中),实现冷热分离。查询较多的,主要是当天, 意思就是,当天的数据不管读写分不分离,最多17个小时(客户17点下班) ,...原创 2018-04-27 14:59:52 · 983 阅读 · 0 评论 -
hive 结合执行计划 分析 limit 执行原理
http://blog.51cto.com/yaoyinjie/923378 在hive查询中要限制查询输出条数, 可以用limit 关键词指定,如 select columnname1 from table1 limit 10; 这样hive将输出符合查询条件的10个记录,从根本上说, hive是hadoop提交作业的客户端,它使用antlr词法语法分析工具,对SQL进行分析优化后翻译成一系列M...转载 2018-04-27 17:10:33 · 552 阅读 · 0 评论 -
zookeeper搭建(简单易学)
1.官网可下载:http://www.apache.org/dyn/closer.cgi/zookeeper/ 我这里下载的zookeeper-3.4.12.tar2.配置下载并解压,Zookeeper 的配置文件在 conf 目录下,有 zoo_sample.cfg 和 log4j.properties,将zoo_sample.cfg 重命名成zoo.cfg,因为 Zookeeper 在启动时会...原创 2018-06-25 16:06:46 · 323 阅读 · 0 评论 -
测试最新集群5.10.0+spark+kafka
原创 2017-03-28 19:37:03 · 260 阅读 · 0 评论 -
hive的查询注意事项以及优化总结
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from A转载 2016-09-30 09:26:13 · 498 阅读 · 0 评论 -
让你彻底明白hive数据存储各种模式
问题导读1.hive数据分为那两种类型?2.什么表数据?3.什么是元数据?4.Hive表里面导入数据的本质什么?5.表、分区、桶之间之间的关系是什么?6.外部表和表的区别是什么? Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录转载 2016-08-04 23:26:09 · 2525 阅读 · 0 评论 -
cloudera-manager安装+CDH5.4.1部署+mysql+python+impala安装
三台Red Hat Enterprise Linux Server release 6.3 (Santiago) ,搭建hadoop[root@master01 cdh_install]# more /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1原创 2016-02-03 10:21:55 · 4668 阅读 · 0 评论 -
401 Unauthorized: ERROR Failed to connect to newly launched supervisor. Agent will exit
cloudera-scm-agent 在master1节点起来后,其他节点为什么报错。日志显示 401 Unauthorized: ERROR Failed to connect to newly launched supervisor. Agent will exit 主要因为是uuid 一样,所以造成代理紊乱,造成原因:原创 2016-04-17 10:01:50 · 6465 阅读 · 0 评论 -
error: [Errno 111] Connection refused
hadoop安装篇原创 2016-04-17 10:43:35 · 34502 阅读 · 5 评论 -
把csv入库到hadoop集群
--建立文本表create table tmp.S_CONF_GRIDDING_LST_text(s_id varchar(160),s_date timestamp )ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE ; --拷贝到hdfs [root@MAST原创 2016-04-17 10:45:20 · 3784 阅读 · 0 评论 -
最详细的hadoop2.2.0集群的HA高可靠的最简单配置
原文http://www.open-open.com/lib/view/open1390717631132.html简介 hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是had转载 2016-04-18 19:34:30 · 432 阅读 · 0 评论 -
Hive常用优化方法
周末抽空搭建了一个10个节点的hadoop集群(CDH5.4.1)。安装注意事项:做好各节点ssh等价,ntp时钟同步, 角色分配zookiper 最好独立磁盘个数为基数1,3,5 , 做好高可用active, hue最好添加hdfs fttpfs角色,以免主备切换时hue不可用。用途: 因为有商用的集群要升级,所以准备一个备用的集群,备份数据。保障升级失败、磁盘崩溃后,原创 2016-04-19 11:40:12 · 4894 阅读 · 0 评论 -
当一个节点在CM中出现2条记录,导致启动hadoop集群失败,host_id 始终找不到匹配的host_identifier
hadoop集群 启动报错处理原创 2016-05-04 10:25:01 · 1179 阅读 · 0 评论 -
从linux拷贝到HDFS分区表报错,查看是编码问题
从linux拷贝到HDFS分区表报错,查看是编码问题,应该是解析的哥们用dos。^M 应该是windows \n--怎么解决? 那就用dos2unix 转一下编码。1.首先安装包。[root@jiexi_71 Packages]# rpm -ivh dos2unix-3.1-37.el6.x86_64.rpm warning: dos2unix-3.1-37原创 2016-05-19 16:50:25 · 619 阅读 · 0 评论 -
javax.persistence.PersistenceException: [PersistenceUnit: cmf.server] Unable to build EntityManagerF
在节前下电,今天启动的过程中,有一套集群cm启动不了。查看日志[root@MASTER02 cloudera-scm-server]# tail -100f cloudera-scm-server.out JAVA_HOME=/usr/java/jdk1.7.0_67-clouderaCaused by: org.springframework.beans.factory.Bean原创 2016-06-12 11:11:45 · 2846 阅读 · 1 评论 -
hive和impala查询数据对比
首先impala查询数据,更像rdbms一样(mysql)。--1.impala连接 [root@MASTER01 ~]# impala-shell -islave03;Starting Impala Shell without Kerberos authenticationConnected to slave03:21000Server version: impalad v原创 2016-07-10 23:20:08 · 3118 阅读 · 0 评论 -
sqoop 测试
sqoop在cdh安装时就已经集成了,和1.0版本相比,相对简单了。--1.查看所有参数命令[root@MASTER01 ~]# sqoop helpWarning: /opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports原创 2016-07-11 00:03:58 · 1863 阅读 · 0 评论 -
hadoop 配置ssh
用namenode做cm server,要配置ssh 无密码登录,访问datanode。--1.需要在namenode生成密钥[root@master01 ~]# ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_原创 2016-06-15 22:59:16 · 526 阅读 · 0 评论 -
cdh卸载
1、停止群集 2、删除群集 3、停止CM服务 service cloudera-scm-agent stopservice cloudera-scm-server stop service cloudera-scm-server-db stop yum remove 'cloudera-manager-*' -yumount /var/run/cloudera-原创 2016-07-05 13:02:23 · 611 阅读 · 0 评论 -
同步分区表
1.在源数据库查看表hdfs存放位置[slave02:21000] > show create table stat_city_app_hour;Query: show create table stat_city_app_hour+--------------------------------------------------------------------------+| r原创 2016-07-27 15:49:52 · 952 阅读 · 0 评论 -
根据阈值清理指定路径的文件 linux
#!/bin/bash # ------------------------------------------------------------------------------+# DELETE FILE SYSYTEM SPACE BY THRESHOLD |# Filename: del_spac原创 2016-07-06 10:41:00 · 673 阅读 · 0 评论 -
java.net.SocketTimeoutException: Read timed out
今天在处理impala同步过程,遇到了一个报错,貌似连接满了。直接上图:说明:hive.metastore.client.socket.timeout说明: Client socket 的超时时间默认值:20秒原因:这里有可能是通信网络不好,网卡问题,延迟等问题,所以通常可以设置500秒处理步骤hiv原创 2016-07-20 22:42:22 · 7497 阅读 · 0 评论 -
架构文章
https://blog.csdn.net/Professorphp/article/details/80608780收藏了转载 2018-09-20 11:32:16 · 324 阅读 · 0 评论