冯立彬的博客

关注性能、效率、大型网站架构、分布式应用、大数据计算等

Spark2通过SparkSQL读写Hive数据的示例

说明都在代码中: import java.io.File; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; impo...

2018-08-15 14:37:43

阅读数:347

评论数:1

ElasticSearch中的日期映射为Hive中的日期格式

现在的场景是需要将ElasticSearch中的数据导入到Hive中,但是在导入的时候发现了日期映射的异常,ElasticSearch中日期字段定义的格式为: "time" : { "type&...

2018-06-08 18:53:17

阅读数:487

评论数:0

Yarn中的Map和Reduce的优化

通过Hive执行的批次任务处理失败,通过Yarn的ResourceManager可以看到错误日志如下:Diagnostics: Container [pid=31880,containerID=container_1528360247633_0013_01_000001] is running b...

2018-06-08 17:42:00

阅读数:439

评论数:0

提升Hive操作Amazon S3读写数据的性能

Hive操作S3权限的优化参数优化值以胡数      参数推荐设置hive.warehouse.subdir.inherit.perms由于S3没有文件权限的概念,请设置hive.warehouse.subdir.inherit.perms = false以减少文件权限检查的次数。hive.met...

2018-06-07 15:20:26

阅读数:1161

评论数:1

Hive中导入Amazon S3中的分区表数据的操作

Hive中创建S3的外部表    数据在S3存放的数据是按时间纬度存放的,每天的数据存放在各自的目录下,目录结构如下截图:           每个目录下面的数据是CSV文件,现在将其导入到Hive中进行查询,通过创建对应的表结构:    CREATE EXTERNAL TABLE `palmpl...

2018-06-06 16:01:01

阅读数:467

评论数:0

CDH集群中集成AWS S3

介绍    通过在CDH大数据计算集群中集成AWS S3(Simple Storage Service)的功能,可以方便将存放于AWS S3中的数据在Hive中进行分析,也方便将其它数据源的数据(如ES、MYSQL等),通过Hive写入到S3然后通过其它的数据仓库和BI工具进行分析和展示,其功能包...

2018-05-30 14:43:04

阅读数:504

评论数:2

oozie的sharelib没有正确放到hadoop中,导致异常/user/oozie/share/lib does not exist

一、异常表现    通常情况下,正确的安装oozie,其share lib都会放到Hadoop的/user/oozie/share/lib目录中,但是也有可能在出现某种情况异常如权限不对等的情况下,导致/user/oozie/share/lib没有正确的放入oozie的share lib,其错误可...

2018-05-28 19:11:16

阅读数:544

评论数:0

Hadoop集群中增加与ElasticSearch连接的操作

    在没有引入elasticsearch-hadoop-xxx.jar相应的Jar包时,的在Hive中执行ElasticSearch外部表操作,会报如下的异常:        Exception in thread "main" java.io.IOExce...

2018-05-28 11:54:22

阅读数:682

评论数:0

Hive查询AWS上的ES服务报的EsHadoopIllegalArgumentException:No data nodes with HTTP-enabled available异常及解决方案

    原来的ElasticSearch集群是自己搭建,通过elasticsearch-hadoop插入从hive连接到elasticsearch做查询时,没有出现在过“org.elasticsearch.hadoop.EsHadoopIllegalArgumentException:No dat...

2018-05-28 11:18:38

阅读数:323

评论数:1

Hive中带条件查询时报Class org.apache.hive.hcatalog.data.JsonSerDe not found的错误及解决办法

    数据计算平台重新搭建成功后,一切顠红,看起来心情就是舒畅,放个截图让心情爽一把:        后续当然需要做一些验证性的工作,以确保安装成功后一切都是执行OK的。    先放一些测试的JSON文件到HDFS的/tmp/test_json目录下,然后打开HUE界面,进行Hive SQL执行...

2018-05-25 10:07:31

阅读数:422

评论数:0

CDH大数据计算管理平台安装所踩的坑及相关注意事项

    最近公司的基于CDH的Hadoop大数据计算平台需要迁移,由于时间过长,原来的搭建步骤以及踩过的坑都忘得差不多了,现在为了将来能够有个依据,特将本次重新搭建平台所踩的坑给记录下来。    总体的步骤参看请参看这篇文章:http://blog.csdn.net/f1321368/articl...

2018-05-24 16:53:42

阅读数:1179

评论数:9

Hadoop入门进阶步步高(六)-Hadoop1.x与Hadoop2的区别

六、Hadoop1.x与Hadoop2的区别1、变更介绍Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:l HDFS的NameNodes可以以集群的方式布署,增强了NameNod...

2014-06-21 12:35:43

阅读数:34749

评论数:3

Hadoop入门进阶步步高(五)-搭建Hadoop集群

五、搭建Hadoop集群上面的步骤,确认了单机可以执行Hadoop的伪分布执行,真正的分布式执行无非也就是多几台slave机器而已,配置方面的有一点点区别,配置起来就非常简单了。1、准备三台服务器192.168.56.101192.168.56.102192.168.56.103在每台机器的/et...

2014-06-15 22:16:19

阅读数:6375

评论数:0

Hadoop入门进阶步步高(四)-测试Hadoop

四、测试Hadoop一个简单的求每年温度最大值的程序。1、准备两个文本测试数据准备两个名为data1.txt及data2.txt的文件,用于做为计算的输入数据,将其放于/home/fenglibin/java/data目录下:data1.txtdata2.txt1999 101999 201999...

2014-06-15 22:11:56

阅读数:7282

评论数:0

Hadoop入门进阶步步高(三)-配置Hadoop

三、配置Hadoop1、设置$HADOOP_HOME/conf/hadoop-env.sh这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称默认值说明JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如:/usr/...

2014-06-15 22:02:12

阅读数:30575

评论数:4

Hadoop入门进阶步步高(二)-目录介绍

二、Hadoop目录结构这里重点介绍几个目录bin、conf及lib目录。1、$HADOOP_HOME/bin目录文件名称说明hadoop用于执行hadoop脚本命令,被hadoop-daemon.sh调用执行,也可以单独执行,一切命令的核心hadoop-config.shHadoop的配置文件h...

2014-06-15 21:56:36

阅读数:9856

评论数:0

Hadoop入门进阶步步高(一)-环境准备

前言Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System);从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完成,再将结果合并,减少计...

2014-06-15 21:53:15

阅读数:9839

评论数:1

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理、Leader 选举、队列管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件...

2014-06-15 09:56:28

阅读数:12805

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭