冯立彬的博客

关注性能、效率、大型网站架构及分布式应用

排序:
默认
按更新时间
按访问量

ElasticSearch中的日期映射为Hive中的日期格式

现在的场景是需要将ElasticSearch中的数据导入到Hive中,但是在导入的时候发现了日期映射的异常,ElasticSearch中日期字段定义的格式为: "time" : { "type&...

2018-06-08 18:53:17

阅读数:340

评论数:0

Yarn中的Map和Reduce的优化

通过Hive执行的批次任务处理失败,通过Yarn的ResourceManager可以看到错误日志如下:Diagnostics: Container [pid=31880,containerID=container_1528360247633_0013_01_000001] is running b...

2018-06-08 17:42:00

阅读数:355

评论数:0

提升Hive操作Amazon S3读写数据的性能

Hive操作S3权限的优化参数优化值以胡数      参数推荐设置hive.warehouse.subdir.inherit.perms由于S3没有文件权限的概念,请设置hive.warehouse.subdir.inherit.perms = false以减少文件权限检查的次数。hive.met...

2018-06-07 15:20:26

阅读数:890

评论数:1

Hive中导入Amazon S3中的分区表数据的操作

Hive中创建S3的外部表    数据在S3存放的数据是按时间纬度存放的,每天的数据存放在各自的目录下,目录结构如下截图:           每个目录下面的数据是CSV文件,现在将其导入到Hive中进行查询,通过创建对应的表结构:    CREATE EXTERNAL TABLE `palmpl...

2018-06-06 16:01:01

阅读数:341

评论数:0

CDH集群中集成AWS S3

介绍    通过在CDH大数据计算集群中集成AWS S3(Simple Storage Service)的功能,可以方便将存放于AWS S3中的数据在Hive中进行分析,也方便将其它数据源的数据(如ES、MYSQL等),通过Hive写入到S3然后通过其它的数据仓库和BI工具进行分析和展示,其功能包...

2018-05-30 14:43:04

阅读数:380

评论数:2

oozie的sharelib没有正确放到hadoop中,导致异常/user/oozie/share/lib does not exist

一、异常表现    通常情况下,正确的安装oozie,其share lib都会放到Hadoop的/user/oozie/share/lib目录中,但是也有可能在出现某种情况异常如权限不对等的情况下,导致/user/oozie/share/lib没有正确的放入oozie的share lib,其错误可...

2018-05-28 19:11:16

阅读数:192

评论数:0

Hadoop集群中增加与ElasticSearch连接的操作

    在没有引入elasticsearch-hadoop-xxx.jar相应的Jar包时,的在Hive中执行ElasticSearch外部表操作,会报如下的异常:        Exception in thread "main" java.io.IOExce...

2018-05-28 11:54:22

阅读数:432

评论数:0

Hive查询AWS上的ES服务报的EsHadoopIllegalArgumentException:No data nodes with HTTP-enabled available异常及解决方案

    原来的ElasticSearch集群是自己搭建,通过elasticsearch-hadoop插入从hive连接到elasticsearch做查询时,没有出现在过“org.elasticsearch.hadoop.EsHadoopIllegalArgumentException:No dat...

2018-05-28 11:18:38

阅读数:183

评论数:1

Hive中带条件查询时报Class org.apache.hive.hcatalog.data.JsonSerDe not found的错误及解决办法

    数据计算平台重新搭建成功后,一切顠红,看起来心情就是舒畅,放个截图让心情爽一把:        后续当然需要做一些验证性的工作,以确保安装成功后一切都是执行OK的。    先放一些测试的JSON文件到HDFS的/tmp/test_json目录下,然后打开HUE界面,进行Hive SQL执行...

2018-05-25 10:07:31

阅读数:181

评论数:0

CDH大数据计算管理平台安装所踩的坑及相关注意事项

    最近公司的基于CDH的Hadoop大数据计算平台需要迁移,由于时间过长,原来的搭建步骤以及踩过的坑都忘得差不多了,现在为了将来能够有个依据,特将本次重新搭建平台所踩的坑给记录下来。    总体的步骤参看请参看这篇文章:http://blog.csdn.net/f1321368/articl...

2018-05-24 16:53:42

阅读数:991

评论数:9

Java8中使用stream进行分组统计和普通实现的分组统计的性能对比

    在ImportNew上面看到一篇文章:http://www.importnew.com/14841.html,说的是使用Java8的对集合采用流操作的新特性,替代旧的使用循环对集合操作的方式,使用Java8的流操作功能对集合进行分组,以及对相应的内容进行去重等操作等,使用Java8编写的代...

2018-05-08 14:11:07

阅读数:311

评论数:0

Java数据结构Map,List,Set及Queue相关的类图

闲来无事,把util包中相关的数据结构的类图及其关系画了一下,给大家分享一下。

2014-07-12 21:52:39

阅读数:7553

评论数:5

UML基础知识

(这个是很久以前写的一篇关于UML的文章,现在放出来和大家共享)了解一下类与类之间的关联基础知识很有必要,因为这些关系就像我们建造房子的基石,是面向对向编程的基础。类中的关系有六种,分别是关联(Association)关系、聚合(Aggregation)关系、组合(Composition)关系、泛...

2014-07-12 20:50:41

阅读数:4050

评论数:0

客户端产生CLOSE_WAIT状态的解决方案

现象生产环境和测试环境都发现有个外围应用通过搜索服务调用搜索引擎时,偶尔会出现大量的访问超时的问题,通过如下方式进行分析排查:l 首先是拿到搜索服务的JavaCore,发现其堵在HttpClient的发送上面,被堵的连接有数百个,原因是不能够从连接池中获取到连接;l 首先想到的就是连接池没有释放,...

2014-07-03 21:49:08

阅读数:29489

评论数:2

Hadoop入门进阶步步高(六)-Hadoop1.x与Hadoop2的区别

六、Hadoop1.x与Hadoop2的区别1、变更介绍Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:l HDFS的NameNodes可以以集群的方式布署,增强了NameNod...

2014-06-21 12:35:43

阅读数:34484

评论数:3

Hadoop入门进阶步步高(五)-搭建Hadoop集群

五、搭建Hadoop集群上面的步骤,确认了单机可以执行Hadoop的伪分布执行,真正的分布式执行无非也就是多几台slave机器而已,配置方面的有一点点区别,配置起来就非常简单了。1、准备三台服务器192.168.56.101192.168.56.102192.168.56.103在每台机器的/et...

2014-06-15 22:16:19

阅读数:6318

评论数:0

Hadoop入门进阶步步高(四)-测试Hadoop

四、测试Hadoop一个简单的求每年温度最大值的程序。1、准备两个文本测试数据准备两个名为data1.txt及data2.txt的文件,用于做为计算的输入数据,将其放于/home/fenglibin/java/data目录下:data1.txtdata2.txt1999 101999 201999...

2014-06-15 22:11:56

阅读数:7200

评论数:0

Hadoop入门进阶步步高(三)-配置Hadoop

三、配置Hadoop1、设置$HADOOP_HOME/conf/hadoop-env.sh这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称默认值说明JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如:/usr/...

2014-06-15 22:02:12

阅读数:29754

评论数:4

Hadoop入门进阶步步高(二)-目录介绍

二、Hadoop目录结构这里重点介绍几个目录bin、conf及lib目录。1、$HADOOP_HOME/bin目录文件名称说明hadoop用于执行hadoop脚本命令,被hadoop-daemon.sh调用执行,也可以单独执行,一切命令的核心hadoop-config.shHadoop的配置文件h...

2014-06-15 21:56:36

阅读数:9745

评论数:0

Hadoop入门进阶步步高(一)-环境准备

前言Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System);从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完成,再将结果合并,减少计...

2014-06-15 21:53:15

阅读数:9770

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭