hadoop
hua_ed
这个作者很懒,什么都没留下…
展开
-
hdfs openforwrite 租约释放linux命令
hadoop fsck /data/files/ods/pt_date=20191223 -openforwrite | egrep -v '^\.+$' | egrep "MISSING|OPENFORWRITE" | grep -o "/[^ ]*" | sed -e "s/:$//" | xargs -i hadoop fs -rmr {};原创 2020-06-28 00:02:05 · 731 阅读 · 2 评论 -
CDH-5.16.2 Hue3界面异常修复
1)workflow 流程图中点击不能跳转的问题2)hue3的workflow编辑页,编辑打不开3)workflow action执行完后日志就看不到Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permiss...原创 2020-04-04 14:01:02 · 559 阅读 · 0 评论 -
通过http调用操作hue管理的oozie
前提关闭csrf验证编辑/opt/cloudera/parcels/CDH-5.8.3-1.cdh5.8.3.p0.2/lib/hue/desktop/core/src/desktop/settings.py注释掉MIDDLEWARE_CLASSES中的django.middleware.csrf.CsrfViewMiddleware=========package com.xxx.yy...原创 2020-03-30 00:58:34 · 279 阅读 · 0 评论 -
CDH集群的搭建及简单使用
CDH集群的搭建及简单使用一、CM集群部署1、确认防火墙问题及端口权限并关闭SELinux服务.2、搭建yum源 开启httpd服务:service httpd start 建立CM RPM包和parcels源的目录: mkdir -p /var/www/html/cm5/redhat/6/x86_64mkdir -p /var/www/html/c...原创 2019-12-18 22:54:17 · 1561 阅读 · 0 评论 -
CDH加节点,相关操作
CDH加节点1、cm免密码安装vi /etc/ssh/sshd_configPermitRootLogin yes #增加这一行vi /etc/sudoershadoop ALL=(root)NOPASSWD:ALL2、主机名vi /etc/sysconfig/networkhostname hostname0013、设置到所有相关节...原创 2019-11-12 22:37:50 · 332 阅读 · 0 评论 -
hdfs openforwrite recoverLease
hdfs fsck /xx/origin_table_files/ods_event/pt_date=20191016 -openforwrite | grep -v ".tmp"cat 3.txt | sed 's/OPENFORWRITE:/\n/g'| grep -o "pt_date=.* bytes" | sed 's/: MISSING/\n/g' | sed 's/.\+...原创 2019-11-12 22:35:51 · 748 阅读 · 0 评论 -
hive操作s3数据
1、hive配置s3访问权限2、创建表:例如CREATE EXTERNAL TABLE table( CREATE_TIME BIGINT COMMENT '获取时的时间', EVENT_NAME STRING COMMENT '事件名', TIMESTAMP_ BIGINT COMMENT '事件发生时间', IS_TEST S原创 2017-03-29 18:47:51 · 6118 阅读 · 0 评论 -
升级到ambari2.4后AMBARI_METRICS自动停止问题及部分机器不显示Metrics问题
一、升级到ambari2.4后AMBARI_METRICS自动停止问题原因:连接不到hbase 解决方法:1、Metrics配置,用distributed模式;2、检查zookeeper.znode.parent是否与其他hbase根节点重复;3、检查ams-hbase进程是否启动4、检查是否有phoenix,以及能否用phoenix操作ams-hbase;5、检查原创 2017-05-03 17:22:46 · 1821 阅读 · 0 评论 -
cloudear manager hue & oozie的timezone修复方式
- In order to find the timezone that is on your machine (linux) and set the same to Hue:cat /etc/sysconfig/clock - In order to find the available timezones: ls /usr/share/zoneinfo ==> give原创 2017-12-21 14:24:32 · 420 阅读 · 0 评论 -
hue hbase输入key查询不到的问题
hue hbase输入key查询不到的问题如图,及时选择推荐的key查询也查询不到(并自动跳转到上次查询的key)。原因是:hue将上图输入的key用http get的方式发送到后台查询hbase的,其中有URI特殊字符“/”,导致提交的URL被改变。上图应该输入:%2Facl%2F00fc7768-f1bf-4927-a8b7-b3e09c416599需要转义“/”为“%2F”,其他见 URL特...原创 2018-03-14 20:44:06 · 936 阅读 · 0 评论 -
kylin发生Segments overlap的解决办法
对http://blog.csdn.net/zhangzhaokun/article/details/78419846?locationnum=6&fps=1做补充。1、遇到kylin发生Segments overlap,但按上面的连接处理时发生hbase连接失败,kylin的org.apache.kylin.common.persistence.ResourceTool.copy( 方法...原创 2018-03-14 20:57:26 · 2996 阅读 · 0 评论 -
hive on spark异常
一、INFO : set mapreduce.job.reduces=<number>ERROR : Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)'org.apache.ha...原创 2018-03-16 11:21:47 · 10657 阅读 · 0 评论 -
hue oozie报错ELException: variable [wf] cannot be resolved问题
1、流程2、报错3、解决思路查源码,看变量初始化时机,以及为什么没有该变量。1)org.apache.oozie.util.ELEvaluator中有个private Map<String, Object> vars;变量,用于存放流程中的变量。2)vars变量赋值有setVariables & setVariable两个方法。3)赋值的地方有:org.apache.oozie...原创 2018-06-08 18:05:38 · 1314 阅读 · 0 评论 -
Hive集成Hbase
集成过程及遇到的问题1.开始用ambari hive集成遇到问题,尝试用独立的hive1.2.1,但因为版本太低,异常如下,考虑继续使用ambari hive:hive> select * from lxw1234;OKException in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client....原创 2018-06-08 18:12:16 · 438 阅读 · 0 评论 -
hue oozie rerun使用问题记录
CDH oozie4.10正确使用方法:1、oozie配置oozieoozie.service.LiteWorkflowStoreService.user.retry.error.code.ext=ALL直接指定为ALL单独E0080这样的事件并没有效.2、在hue的工作流中设置重试次数。(CDH5.8中default是没效果的,一定要自己指定)以上问题也可能是我具体的版本才会有。...原创 2018-06-08 19:40:45 · 1069 阅读 · 0 评论 -
cdh hue sqoop export 空值null处理
一、执行SQL查到HDFS临时文件INSERT OVERWRITE DIRECTORY '${TMP_PATH}' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' NULL DEFINED AS "\\N" ${HQL};二、删除目标库重复数据三、导出四、删除HDFS临时文件注意点:查出时的 NULL...原创 2018-12-05 17:45:33 · 4341 阅读 · 0 评论 -
kafka_0.10.0.2.5 shell 工具执行时端口冲突的解决方法
./bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --partitions 2 --topic testTopicError: Exception thrown by the agent : java.rmi.server.ExportException: Port already i原创 2017-03-30 15:51:27 · 4424 阅读 · 1 评论 -
hbase regionserver的region到300以上老是挂啊,怎么整
Hua(•ิ 13:11:54hbase regionserver的region到300以上老是挂啊,怎么整aperise 13:27:28首先加内存 然后调整hbase.regionserver.global.memstore.size(默认HEAP_SIZE*0.4)=1.6G和Hbase.regionserver.global.memstore.lowerLimi原创 2017-02-17 14:36:45 · 2816 阅读 · 0 评论 -
Hadoop2.6+jdk8的安装部署(1)——使用jar包安装部署【详细】
http://www.w2bc.com/Article/32283原创 2015-09-22 23:37:48 · 509 阅读 · 0 评论 -
Hadoop家族
http://blog.fens.me/hadoop-family-roadmap/一句话产品介绍:Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数转载 2015-09-23 00:41:27 · 330 阅读 · 0 评论 -
ubuntu 环境下编译 hadoop 2.6.0的简单方法
http://blog.sina.com.cn/s/blog_549667a50102v83x.html原创 2015-09-22 23:39:40 · 462 阅读 · 0 评论 -
为Hadoop集群选择合适的硬件配置
http://www.ha97.com/5673.html#more-5673随着ApacheHadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比转载 2015-09-23 22:56:24 · 852 阅读 · 0 评论 -
ambari-server启动时的警告解决方法,WARNING: setpgid(5947, 0) failed - [Errno 13] Permission denied
ambari-server启动时的警告XZ@AM:$ sudo ambari-server startUsing python /usr/bin/python2Starting ambari-serverAmbari Server running with administrator privileges.Organizing resource files at /var原创 2016-01-06 14:49:22 · 2598 阅读 · 3 评论 -
Awesome Big Data,了不起的大数据
origin https://github.com/onurakpolat/awesome-bigdata关于大数据的优秀框架和资源列表。A curated list of awesome big data frameworks, resources and other awesomeness. Inspired byawesome-php, awesome-python,转载 2015-10-25 14:55:00 · 3574 阅读 · 0 评论 -
hive是不是要分布式部署?要不要安装多个?
hive是不是要分布式部署?要不要安装多个?见 http://www.aboutyun.com/thread-10937-1-1.html 第8问第8问回答:Hive的安装其实有两部分组成,一个是Server端、一个是客户端,所谓服务端其实就是Hive管理Meta的那个Hive,服务端可以装在任何节点上,可以是Namenode上也可以是Datanode的任意一个节点上,至于哪个节点原创 2015-10-23 18:38:14 · 9487 阅读 · 1 评论 -
cmake not able to find pkg-config 、openssl
ubuntu:cmake not able to find pkgconfigsudo apt-get install pkg-configcmake not able to find opensslsudo apt-get install libssl-dev原创 2015-10-21 17:08:48 · 587 阅读 · 0 评论 -
Ant CMake exec returned: 2 && exec returned: 1 解决
ubuntu:exec returned: 2CMake Error: The C++ compiler "CMAKE_CXX_COMPILER-NOTFOUND" is not able to compile a simple test program.解决办法:1. sudo apt-get install g++2. cmake -D CMAKE_CX原创 2015-10-21 16:18:09 · 3335 阅读 · 0 评论 -
Exception in thread "main" java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but i
原因:YARN中的jline版本过低。解决:将hive-lib中的jline替换到yarn-lib目录中:cp $HIVE_HOME/lib/jline-2.12.jar $HADOOP_HOME/share/hadoop/yarn/lib/rm -f $HADOOP_HOME/share/hadoop/yarn/lib/jline-0.9.94.jar转载 2015-10-20 22:45:02 · 769 阅读 · 0 评论 -
RCFile 和 ORCFile
RCFile之前听说 RCFile 在读取数据时可以跳过不需要的列,不需要将一整行读入然后选择所需字段,所以在 Hive 中执行 select a, b from tableA where c = 1 这样的操作就相对比较高效。为了满足好奇心,找了一下关于 RCFile 的论文(RCFile: A Fast and Space-efficient Data Placement Struct转载 2015-10-19 15:30:50 · 1863 阅读 · 0 评论 -
hadoop2.6 & apache-hive-1.2.1-bin & pig-0.15.0 因jline不兼容
默认:hadoop2.6 --> jline-0.9.94.jar apache-hive-1.2.1-bin -->jline-2.12.jar 启动hive报 Found class jline.Terminal, but interface was expected ,需要hadoop的jline版本更高。将jline-2.12.jar替换到hadoop/shar原创 2015-12-02 14:23:48 · 1128 阅读 · 1 评论 -
怎样控制tasktracker/NodeManagers的mapper/container个数问题
如果一个mapper占用内存比较多,用hadoop默认配置的话会在一个task node执行多个mapper实例,这样老是因内存不够被kill.一个mapper都不能正常被执行完。那怎么控制map/reduce的mapper在task中不并发?找到一个http://my.oschina.net/cloudcoder/blog/292528?p=1 大致说:在MR1版本,可原创 2015-12-14 15:12:20 · 1651 阅读 · 0 评论 -
hadoop 2.0最多支持多少个结点
hadoop 2.0最多支持多少个结点hadoop 1.x 最多4000,hadoop2.x最多10000.只找到了下面这个,官网都没找到。谁看到发下链接。Hadoop 1.0 supported ~4K nodes, Hadoop 2.0 - up 10K nodes.https://www.quora.com/Hadoop-1-0-s原创 2016-03-03 10:41:49 · 1130 阅读 · 0 评论 -
HIVE身份验证
三、HIVE身份验证1.开启Hive的身份认证功能,默认是false hive.security.authorization.enabled true Enable or disable the hive client authorization2.表创建者用于的权限配置项 hive.security.authorization.createtable.owne原创 2016-06-15 16:26:02 · 2823 阅读 · 0 评论 -
kafka.storage为kafka时如修改设置用户组的offset
因为offset信息存储在kafka的一个名为__consumer_offsets的topic中,没办法像zookeeper那样直接修改。经过尝试用kafka-python,失败,正常执行完offset没变,也不是zookeeper存储模式。下面是最后用的方法:import java.util.Arrays;import java.util.Properties;impo原创 2016-12-19 20:04:07 · 3709 阅读 · 2 评论 -
hadoop编译的本地库会依赖操作系统吗?比如amd64的系统编译的可以在其他X86OS上工作吗??hadoop本地库与系统版本不一致
hadoop编译的本地库会依赖操作系统吗?比如amd64的系统编译的可以在其他X86OS上工作吗??hadoop本地库与系统版本不一致 http://blog.csdn.net/liws2010/article/details/45699047原创 2015-10-22 10:53:08 · 702 阅读 · 0 评论