大数据
冯立彬
每天前进一步
展开
-
CDH集群中集成AWS S3
介绍 通过在CDH大数据计算集群中集成AWS S3(Simple Storage Service)的功能,可以方便将存放于AWS S3中的数据在Hive中进行分析,也方便将其它数据源的数据(如ES、MYSQL等),通过Hive写入到S3然后通过其它的数据仓库和BI工具进行分析和展示,其功能包括:S3可以作为Impala表的存储S3可以作为HDFS和Hive / Impala复制以及群集存储的...原创 2018-05-30 14:43:04 · 4138 阅读 · 2 评论 -
Hive中导入Amazon S3中的分区表数据的操作
Hive中创建S3的外部表 数据在S3存放的数据是按时间纬度存放的,每天的数据存放在各自的目录下,目录结构如下截图: 每个目录下面的数据是CSV文件,现在将其导入到Hive中进行查询,通过创建对应的表结构: CREATE EXTERNAL TABLE `palmplay_log_pv_s3_csv`( `meta_id` string COMMENT 'from...原创 2018-06-06 16:01:01 · 3524 阅读 · 0 评论 -
提升Hive操作Amazon S3读写数据的性能
Hive操作S3权限的优化参数优化值以胡数 参数推荐设置hive.warehouse.subdir.inherit.perms由于S3没有文件权限的概念,请设置hive.warehouse.subdir.inherit.perms = false以减少文件权限检查的次数。hive.metastore.pre.event.listeners由于S3没有目录权限的概念,请设置hive.met...原创 2018-06-07 15:20:26 · 7208 阅读 · 1 评论 -
Yarn中的Map和Reduce的优化
通过Hive执行的批次任务处理失败,通过Yarn的ResourceManager可以看到错误日志如下:Diagnostics: Container [pid=31880,containerID=container_1528360247633_0013_01_000001] is running beyond physical memory limits. Current usage: 1.0 G...原创 2018-06-08 17:42:00 · 1315 阅读 · 1 评论 -
ElasticSearch中的日期映射为Hive中的日期格式
现在的场景是需要将ElasticSearch中的数据导入到Hive中,但是在导入的时候发现了日期映射的异常,ElasticSearch中日期字段定义的格式为: "time" : { "type" : "date", "store" : true, "include_in_all" : true, ...原创 2018-06-08 18:53:17 · 4205 阅读 · 0 评论 -
Spring Kafka中关于Kafka的配置参数
SpringKafka文档地址:https://docs.spring.io/spring-kafka/reference/htmlsinglekafka文档地址:http://kafka.apache.org/documentationSpringKafka中配置的Java配置实现类:https://github.com/spring-projects/spring-boot/blob/v1...原创 2018-08-27 18:27:16 · 71947 阅读 · 0 评论 -
HDFS中将普通用户增加到超级用户组supergroup以及其应用场景
Hadoop平台会集成不同的组件,如hdfs、yarn、hive等,不同用户的操作权限不同,除了hdfs是超级用户以外,其它用户都默认是普通用户权限,但是有些场景之下,我们希望普通具有具有hdfs的超级权限,如我oozie中调试shell任务,其中shell调用sqoop从数据中导入数据到hive中,其后会通过Yarn来执行MapReduce这么一个过程,不过Yarn在执行的时候,会在hdfs的/...原创 2018-08-31 20:22:31 · 24233 阅读 · 2 评论 -
HBase中的SplitRegionPolicy实现原理及其源码解读
我的HBase是使用的是CDH5.15中的版本,其版本对应的是HBase的版本为1.2,后续的分析都是基于该版本的源码做的分析。一、SplitRegionPolicy及其子类介绍在HBase的1.2版本中,RegionSplitPolicy的实现子类共有6个,如下类图:以下针对这几个拆分策略做单独的说明。1、RegionSplitPolicyRegionSplitPolic...原创 2018-09-18 13:48:06 · 3547 阅读 · 0 评论 -
CDH大数据计算管理平台安装所踩的坑及相关注意事项
最近公司的基于CDH的Hadoop大数据计算平台需要迁移,由于时间过长,原来的搭建步骤以及踩过的坑都忘得差不多了,现在为了将来能够有个依据,特将本次重新搭建平台所踩的坑给记录下来。 总体的步骤参看请参看这篇文章:http://blog.csdn.net/f1321368/article/details/49635587,讲得蛮详细的,图文件并茂。 下面记录的是一些上面那篇文件中...原创 2018-05-24 16:53:42 · 3596 阅读 · 8 评论 -
oozie的sharelib没有正确放到hadoop中,导致异常/user/oozie/share/lib does not exist
一、异常表现 通常情况下,正确的安装oozie,其share lib都会放到Hadoop的/user/oozie/share/lib目录中,但是也有可能在出现某种情况异常如权限不对等的情况下,导致/user/oozie/share/lib没有正确的放入oozie的share lib,其错误可能表示为如下已知的两种情况: 1、通过HUE的界面的QUERY->Editor->J...原创 2018-05-28 19:11:16 · 6997 阅读 · 6 评论 -
Hadoop集群中增加与ElasticSearch连接的操作
在没有引入elasticsearch-hadoop-xxx.jar相应的Jar包时,的在Hive中执行ElasticSearch外部表操作,会报如下的异常: Exception in thread "main" java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocol...原创 2018-05-28 11:54:22 · 6381 阅读 · 1 评论 -
Hadoop入门进阶步步高(二)-目录介绍
二、Hadoop目录结构这里重点介绍几个目录bin、conf及lib目录。1、$HADOOP_HOME/bin目录文件名称说明hadoop用于执行hadoop脚本命令,被hadoop-daemon.sh调用执行,也可以单独执行,一切命令的核心hadoop-config.shHadoop的配置文件hadoop-daemon.sh通过执行hadoop命令来启动/停止一个守护进程(daemon)。该命令原创 2014-06-15 21:56:36 · 10419 阅读 · 0 评论 -
Hadoop入门进阶步步高(五)-搭建Hadoop集群
五、搭建Hadoop集群上面的步骤,确认了单机可以执行Hadoop的伪分布执行,真正的分布式执行无非也就是多几台slave机器而已,配置方面的有一点点区别,配置起来就非常简单了。1、准备三台服务器192.168.56.101192.168.56.102192.168.56.103在每台机器的/etc/hosts中都将ip及hostname给映射上:192.168.56.101 nginx1192原创 2014-06-15 22:16:19 · 6813 阅读 · 0 评论 -
分布式服务框架 Zookeeper -- 管理分布式环境中的数据
Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理、Leader 选举、队列管理等。本文将从使用者角度详细介绍 Zookeeper 的安装和配置文件中各个配置项的意义,例举分析 Zookeeper 的典型的应用场景,用 Java 实现它们并给出示例代原创 2014-06-15 09:56:28 · 13582 阅读 · 0 评论 -
Hadoop入门进阶步步高(四)-测试Hadoop
四、测试Hadoop一个简单的求每年温度最大值的程序。1、准备两个文本测试数据准备两个名为data1.txt及data2.txt的文件,用于做为计算的输入数据,将其放于/home/fenglibin/java/data目录下:data1.txtdata2.txt1999 101999 201999 252000 212000 222000 182000 402001 452001 652002 9原创 2014-06-15 22:11:56 · 7720 阅读 · 0 评论 -
Hadoop入门进阶步步高(六)-Hadoop1.x与Hadoop2的区别
六、Hadoop1.x与Hadoop2的区别1、变更介绍Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:l HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;l MapReduce将JobTracker中的资源管理及任务生命周期管理原创 2014-06-21 12:35:43 · 37675 阅读 · 3 评论 -
Hadoop入门进阶步步高(一)-环境准备
前言Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System);从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完成,再将结果合并,减少计算的时间。Hadoop适合于:1、超大数据的计算;2、一次写入、多次读取的模式;3、可以跑在普通的硬件原创 2014-06-15 21:53:15 · 10381 阅读 · 1 评论 -
Hive中带条件查询时报Class org.apache.hive.hcatalog.data.JsonSerDe not found的错误及解决办法
数据计算平台重新搭建成功后,一切顠红,看起来心情就是舒畅,放个截图让心情爽一把: 后续当然需要做一些验证性的工作,以确保安装成功后一切都是执行OK的。 先放一些测试的JSON文件到HDFS的/tmp/test_json目录下,然后打开HUE界面,进行Hive SQL执行窗口,先创建一个基于JSON文件的外部表: CREATE TABLE json_tabl...原创 2018-05-25 10:07:31 · 9156 阅读 · 3 评论 -
Hive查询AWS上的ES服务报的EsHadoopIllegalArgumentException:No data nodes with HTTP-enabled available异常及解决方案
原来的ElasticSearch集群是自己搭建,通过elasticsearch-hadoop插入从hive连接到elasticsearch做查询时,没有出现在过“org.elasticsearch.hadoop.EsHadoopIllegalArgumentException:No data nodes with HTTP-enabled available”这样的异常信息,刚开始还以为是...原创 2018-05-28 11:18:38 · 4962 阅读 · 1 评论 -
Spark2中操作HBase的异常:java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescriptor.addFamily
为了完善HBase的管理功能,且利用Spark的数据处理优异性能的特性,就准备在Spark中集成HBase的管理功能。但是集成的过程中出现了一个比较奇怪的问题,异常信息如下:Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hbase.HTableDescriptor.addFamily...原创 2019-02-22 14:52:27 · 8313 阅读 · 1 评论