Hadoop
sunrising_hill
这个作者很懒,什么都没留下…
展开
-
Hadoop HDFS升级HA,Hive旧的库表元数据需同步更新
一、配置HDFS HA简介:任意时刻只有一个NameNode处于Active状态,为集群操作提供服务。其他NameNode全部处于Standby状态,他们维护足够的状态信息,以便在Active Failover时,快速提供服务切换。为了快速切换NameNode,Standby NameNode需要实时更新DataNode的Block信息,因此,DataNode上会配置所有的Nam...原创 2020-04-02 01:44:38 · 1017 阅读 · 1 评论 -
Sqoop增量导入数据
# Sqoop提供了增量import数据的方法,可以只从RDBMS中获取上次import操作后的新增数据。Argument Description--check-column (col) Specifies the column to be examined when determining which rows to import. (the column should not b...原创 2019-07-16 17:32:14 · 528 阅读 · 0 评论 -
Hadoop Mapreduce ClassNotFoundException: javax.activation.DataSource
运行hadoop MapReduce报如下错误:[2019-07-16 11:39:24.204]Container exited with a non-zero exit code 1. Error file: prelaunch.err.Last 4096 bytes of prelaunch.err :Last 4096 bytes of stderr :WARNING: An ...原创 2019-07-16 11:54:30 · 752 阅读 · 0 评论 -
Sqoop1.4.7 java.lang.ClassNotFoundException: org.apache.commons.lang.StringUtils
Warning: /apps/sqoop/../hcatalog does not exist! HCatalog jobs will fail.Please set $HCAT_HOME to the root of your HCatalog installation.Warning: /apps/sqoop/../accumulo does not exist! Accumulo imp...原创 2019-07-15 17:35:09 · 1741 阅读 · 0 评论 -
Windows搭建spark python开发环境
首先安装jdk、scala、hadoop、spark和python1、python是从官网下载exe安装文件,按照步骤进行安装即可。2、jdk从oracle官网下载安装文件,安装即可。3、scala、hadoop和spark则从官网下载压缩文件,解压后放到指定的安装目录即可,还需要下载hadoop在windows下使用到的winutils.exe,放到HADOOP_HOME/bin目录...原创 2019-06-18 10:51:16 · 515 阅读 · 0 评论 -
Hive MetaStore服务增大内存
找到hive的安装目录,进入/hive/bin/ext/,编辑 metastore.sh文件,增加以下内容:export HIVE_METASTORE_HADOOP_OPTS="-Xms4096m -Xmx4096m"添加后文件内容如下:THISSERVICE=metastoreexport SERVICE_LIST="${SERVICE_LIST}${THISSERVICE} "...原创 2018-10-16 17:34:49 · 2876 阅读 · 0 评论 -
hbase 升级2.1.0
本次hbase从1.2.6升级至2.1.0遇到了两个问题,一个是htrace.jar报错,需要将旧的htrace-core-3.1.0-incubating.jar包上传至hbase-2.1.0的lib目录,另一个问题是jline版本问题,也需要下载高版本jline上传至hbase-2.1.0的lib目录,下载地址:cd /apps/hbase-2.1.0/libwget http:/...原创 2018-08-15 13:53:03 · 1962 阅读 · 0 评论 -
spark-sql 集成 hive
Hive目录下的hive-site.xml添加: <property> <name>hive.metastore.uris</name> <value>thrift://hm.clusterdomain.com:9083</value> <description>Thrift URI for the remote me...原创 2018-03-07 20:25:10 · 429 阅读 · 0 评论 -
Hive集成HBase查询数据表
Hive在HBase的数据表上建立外联表时,尽量将HBase表中可以最快缩小范围的字段作为RowKey的起始字符串,经过测试,这样在查询hive时,如果指定了该字段作为where条件,可以大幅缩短SQL的执行时间。原创 2018-01-19 18:36:00 · 447 阅读 · 0 评论 -
Spark Hbase 集成
安装Spark和Hbase,将Hbase的lib目录下的jar包复制到Spark目录的jars目录下:cp /apps/hbase/lib/metrics-core-2.2.0.jar /apps/spark/jarscp /apps/hbase/lib/hbase*.jar /apps/spark/jars撰写代码,从hbase中读取数据,再通过RDD转换成Dat原创 2018-01-19 16:47:13 · 696 阅读 · 0 评论 -
Hadoop通过路径和和链接访问HDFS
如果既想在Hadoop服务器本地可以通过绝对路径如"/user/hadoop"方式访问hdfs,也想通过"hdfs://localhost:9000/user/hadoop的方式访问hdfs,此时做需要配置core-site.xml: fs.defaultFS hdfs://master.domain.com:9000 上面的配置只能让你使用"hadoop fs -ls原创 2016-12-10 16:46:50 · 27963 阅读 · 1 评论 -
Hadoop HDFS安装
首先需要获取Hadoop程序,可以去到Apache Hadoop官网进行下载:http://hadoop.apache.org/releases.html。1、配置SSH无密码登录:[user@localhost ~]$ cd[user@localhost ~]$ ssh-keygen -t rsa// 省略部分内容,中间一直按回车键继续就可以了[user@localh原创 2016-01-02 00:16:38 · 362 阅读 · 0 评论 -
Hadoop MapReduce ShuffleError: error in shuffle
Hadoop伪分布式模式运行时,运行一个Job报上面错误,原因是由于Hadoop的最大对内存过小,hadoop默认分配的最大堆内存大小为1000MB,有时候跑的job所需的内存可能比这个数值要大很多,这是修改运行是的最大大小并不是mapreduce.map.java.opts或者mapreduce.reduce.java.opts参数的值,他们是在分布式环境下的配置参数。此时我们需原创 2016-01-18 13:34:04 · 737 阅读 · 0 评论 -
hadoop修改hadoop.tmp.dir
hadoop.tmp.dir的目录默认指向的是:/tmp/hadoop-${USERNAME}这样会有个问题,系统重启时会自动删除/tmp目录下的文件,导致你之前对hadoop做的很多操作都被删除了,需要重新再来,比如你想hdfs导入的文件会都被删除。这是你需要修改 ${hadoop_home}/etc/hadoop/core-site.xml文件,添加一个名字为"hadoop.tmp原创 2016-01-16 09:56:39 · 8019 阅读 · 0 评论