2019年12月_Hadoop_SC

原创 0496-使用Parquet矢量化为Hive加速

1 背景Apache Hive是Hadoop之上最流行的数据仓库引擎。提升Hive性能的功能可以显著提高集群资源的整体利用率。Hive使用一连串的运算符来执行查询。这些运算符包括MapTask，ReduceTask或SparkTask，它们在查询执行计划中进行调度。以前这些运算符被设计为每次处理一行数据。一次处理一行导致运算符效率不高，因为需要许多虚函数调用来处理扫描的每一行。另外，如果运算符一...

2019-12-30 15:03:31 919

原创 0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8

1 文档编写目的受前段时间Oracle官宣的从2019年1月之后将不再提供免费的的JDK商业版本的影响，Cloudera开始开发基于OpenJDK的Hadoop平台，参考Fayson之前的文章《Java收费，Hadoop怎么办？》。今年11月29日，Cloudera才发布不久的CDH5.16.1正式提供OpenJDK的支持，参考Fayson之前的文章《0466-CDH5.16.1和CM5.16....

2019-12-30 15:01:46 548

原创 0498-Hue Sqoop1的编辑器中执行Sqoop作业失败问题分析

1 文档编写目的Hue做为Hadoop平台的一款UI工具，提供了丰富的功能。可以通过Hue访问Hadoop的文件系统、Hive、Impala、HBase、Solr、Sqoop等。集成了Oozie实现界面化工作流调度流程，同样也可以集成第三方APP及SQL等。本篇文章Fayson主要介绍在使用Hue提供的Sqoop1编辑功能执行Sqoop作业异常问题分析。测试环境1.RedHat7.22...

2019-12-30 14:59:46 612 1

原创 0499-如何使用潜水艇在Hadoop之上愉快的玩耍深度学习

1 介绍Hadoop是时下最流行的企业级开源大数据平台技术，你可以将它部署在本地，也可以部署在云端。而深度学习，对于企业用户来说举几个简单的例子，常见的场景包括语音识别，图像分类，AI聊天机器人或者机器翻译。为了训练深度学习/机器学习模型，我们可以利用TensorFlow/MXNet/Pytorch/Caffe/XGBoost等框架。有时这些框架也会被一起使用用于解决不同的问题。为了使分布式深...

2019-12-30 14:58:14 751

原创 0500-使用Python2访问Kerberos环境下的Kafka

1文档编写目的Kafka支持多种客户端语言（C/C++、Go、Java、JMS、.NET、Python）。Fayson在前面多篇文章介绍了Java访问Kerberos和非Kerberos环境下的Kafka，参考《如何使用Java连接Kerberos的Kafka》。本篇文章Fayson主要介绍使用Python2访问Kerberos环境下的Kafka。在学习本篇文章内容前你还需要知道《如何通过Clo...

2019-12-30 14:46:27 428

原创 0504-使用Pulse为数据管道实现主动告警

2017年年中，我们与世界上最大的医疗保健公司中的一家合作，将新的数据应用投入生产。这家公司通过收购其他公司来进行扩张，为了保持对FDA的合规性，他们需要从公司的数十个不同部门实时汇总数据。这个应用程序的消费者并不关心我们如何构建数据管道。他们关心的是如果数据管道出问题了，导致最终用户没有获得他们的数据，这家公司将因为无法满足合规可能遭受巨额罚款。数据管道主要使用Apache Spark Str...

2019-12-30 14:39:11 247

原创 0505-使用Apache Hive3实现跨数据库的联邦查询

如今的企业内部一般都有多个系统用于数据存储和数据处理。这些不同的系统各自服务于不同的应用场景或案例。除了传统的RDBMS如Oracle DB，Teradata或PostgreSQL之外，团队可能还使用了Apache Kafka用作流式处理，使用Apache Druid来保存时序数据，使用Apache Phoenix进行快速索引查找。此外，他们可能还使用了云存储服务或HDFS来批量存储数据。平台...

2019-12-30 14:37:33 1381

原创 0506-如何将Hue4.0版本中默认执行引擎设置为Hive而非Impala

1 文档编写目的在登录Hue后默认加载的为Impala执行引擎，对于那些不使用Impala或者喜欢在Hue中使用Hive进行查询的人，还需要进行切换比较麻烦。本篇文章Fayson主要介绍如何在Hue4.0版中设置默认的SQL执行引擎。测试环境：1.操作系统：Redhat7.42.CM和CDH版本为5.15.02 设置默认的SQL执行引擎1.在用户登录成功后默认加载的SQL执行引擎为...

2019-12-30 14:36:23 709

原创 0507-Hive查询json格式表执行MapReduce任务错误问题分析和解决

1 文档编写目的本篇文章主要介绍hive里创建的json格式的表，全表查询时成功，当查询时需要提交mapreduce任务时失败问题描述和解决。内容概述1.问题描述2.问题重新3.问题解决测试环境1.CM和CDH版本为5.13.32.操作系统版本为RedHat7.23.集群未启用Kerberos2 问题描述1、问题描述查询hive里创建的json格式的表全表时成功，当...

2019-12-30 14:35:28 273

原创 0508-如何使用Hadoop的Archive处理小文件

1 文档编写目的Fayson在前面的文章《如何在Hadoop中处理小文件》、《如何在Hadoop中处理小文件-续》和《如何使用Impala合并小文件》等，在文章中也详细说明了怎么去处理Hadoop中的小文件。文章中也提到小文件过多会对NameNode造成压力，导致NameNode内存使用过高。本篇文章Fayson主要使用Hadoop Archive Files功能将集群中的小文件进行归档。测...

2019-12-30 14:34:20 321

原创 0501-使用Python访问Kerberos环境下的Kafka(二)

1 文档编写目的在前面的文章Fayson介绍了一种Python访问Kerberos环境下Kafka的文章，参考《0500-使用Python2访问Kerberos环境下的Kafka》，本篇文章主要介绍另一种方式访问Kerberos环境下的Kafka。在学习本篇文章内容前你还需要知道《如何通过Cloudera Manager为Kafka启用Kerberos及使用》。内容概述：1.环境准备...

2019-12-30 14:32:46 782 1

原创 0502-CDSW中访问Kerberos环境下的Kafka

1 文档编写目的Fayson在前面的文章《0500-使用Python2访问Kerberos环境下的Kafka》和《0501-使用Python访问Kerberos环境下的Kafka(二)》中介绍了两种方式访问Kerberos环境下的Kafka。在前面文章的基础上Fayson介绍在CDSW访问Kerberos环境下的Kafka。在学习本篇文章内容前你还需要知道《如何通过Cloudera Manag...

2019-12-30 14:31:28 234

原创 0503-Cloudera与Hortonworks合并完成

Hadoop大数据领域最大的两家公司Cloudera和Hortonworks在1月3日宣布，完成了所有股票的合并。新的公司会继续使用‘Cloudera’这个品牌，并且在纽交所的交易代号依旧是CLDR。“今天，当我们成为领先的企业数据云提供商时，我们为Cloudera开启了令人兴奋的新篇章，”Cloudera CEO Tom Reilly在公告中表示。“合并后的团队和技术组合明确了Clouder...

2019-12-30 14:29:52 266

原创 0736-1.6.1-如何配置CDSW使用本地的Pycharm

1 文档编写目的在CDSW1.5及以前版本，仅支持内置的编辑器，往往数据科学家在做模型开发训练时更倾向于使用自己熟悉的IDE开发工具。所以在CDSW1.6开始，引入了一个新功能，允许用户自带编辑器，称为BYOE（Bring Your Own Editor）。关于这个新特性可以参考前面的文章《CDSW1.6的新特性》有视频介绍。本篇文章主要介绍在Window客户端环境下，使用CDSW提供的工具搭建...

2019-12-30 14:24:13 658

原创 0509-深入分析CDH的安装目录

如果采用Cloudera官方建议的安装方式，即Cloudera Manager使用rpm的方式安装，CDH使用Parcel方式安装，会在操作系统内产生多种多样的目录。CDH安装主要使用的目录包括/etc，/usr，/var，/tmp，/opt共5个目录，不同的目录下保存不同的子文件夹以及多种多样不同的文件内容主要涉及比如安装包，配置文件，执行命令脚本等。本文Fayson会详细讲解各个目录的作用以...

2019-12-24 10:32:06 1650

原创 0510-Spark应用访问Hive报错异常分析

1 故障描述运行环境说明1.RedHat7.22.CM和CDH版本为5.15.03.Spark1.6问题现象在代码中使用HiveContext对象访问Hive表ods_user（该表为Parquet格式）时发现作业报错，异常如下：Exception in thread "main" org.spark-project.guava.util.concurrent.Uncheck...

2019-12-24 10:28:14 757

原创 0511-正式合并完成后Cloudera推出新的大数据平台CDP

Cloudera在今天主要阐述了将要推出的统一旗舰产品CDP（Cloudera Data Platform），它也是Cloudera新兴的“企业数据云”战略的核心。同时宣布的还有他们将继续支持现有的CDH和HDP平台一直到2022年，同时在这3年对现有的产品还会进行交叉组合。Cloudera新的CDP平台会同时支持运行在本地，私有云，以及5个最大的公有云包括Amazon，Microsoft，G...

2019-12-24 10:27:17 1320

原创 0512-使用Python访问Kerberos环境下的HDFS

1 文档编写目的随着Hadoop平台的普及和Python语言的流行，使用Python语言访问操作HDFS的需要，Python也提供了多个访问HDFS的依赖包（如：pyhdfs、HdfsCLI、pywhdfs），这些依赖包都是通过API的方式与HDFS进行交互。本篇文章Fayson主要介绍使用pywhdfs访问Kerberos环境下的HDFS。内容概述：1.环境准备2.Python2示例...

2019-12-24 10:26:32 1734

原创 0513-开源软件如何统治世界

作者：Mike Volpi就在5年前，投资者对于开源软件这种商业模式依旧持怀疑态度。他们都认为Redhat就像一片雪花(意指看上去很美腻，但随时可能化为虚无)，当时也没有其他开源公司在软件领域获得较为出彩的成绩。时间快进到今天，我们在开源软件领域目睹了一件件令人兴奋的事件：IBM以320亿美元的价格收购了Redhat（是2014年市值的3倍）；Mulesoft在上市后以65亿美金的价格被Sal...

2019-12-24 10:24:24 267

原创 0514-Hive On Spark无法创建Spark Client问题分析

1 问题现象测试环境1.RedHat7.22.CM和CDH版本为5.15.0在集群中进行Hive-On-Spark查询失败，并在HiveServer2日志中显示如下错误：ERROR : Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Faile...

2019-12-24 10:22:57 3238 1

原创 0515-如何对Cloudera Manager的数据库密码进行脱敏

1 问题重现通过Fayson前面的文章《0509-深入分析CDH的安装目录》，我们知道Cloudera Manager使用的数据库账号密码信息保存在/etc/cloudera-scm-server目录下的db.properties文件中，但打开该文件进行查看发现数据库的password选项为明文，所示：这种方式如果直接在文件中保存密码明文，对于一些企业的生产安全要求有时候是不能接受的，Clo...

2019-12-24 10:21:44 448

原创 0516-如何查看Hive中某个角色所有已授权的

1 文档编写目的在命令行执行show role grant group xxx；可以方便的获取该组拥有的角色，但不能够通过一条命令查看某个角色下拥有哪些组。那么有没有比较方便的方式直接列出某个角色下所有已授权的组，接下来Fayson介绍测试环境1.CM和CDH版本为5.15.02.Redhat7.42 查看角色下所有组当前没有这样的使用一条语句来查看角色下所有已授权的组。目前可...

2019-12-24 10:20:09 2737

原创 0517-如何在CDH5中使用单用户模式

我们一般在安装CDH时，都是使用root或具有sudo权限的用户安装的，如果大家有注意会发现用于管理每台主机上的Hadoop进程的Cloudera Manager Agent服务（cloudera-scm-agent）是以root用户身份运行的。但是在有些企业，运维部门有严格的要求，需要CDH使用自己的用户来管理即不能随便使用root，比如要求cloudera-scm-agent服务以其他用户进行...

2019-12-24 10:16:55 602

原创 0518-如何在Impala中使用UDF获取SessionId

1 文档编写目的Hive在UDF中获取sessionId可以直接使用提供的java API，但是该UDF如果移植到Impala中是无法获取到Impala连接的SessionId的，要想获取Impala的SessionId,需要用C++来编写。2 实现思路根据Impala的源码可知可通过UDF参数中的context上下文对象来取得该SessionId,具体调用关系如下：context-&...

2019-12-24 10:04:29 458

转载一步一步理解Impala query profile（二）

作者：Eric Lin (林晨辉)， Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学， Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise（现为Experian的子公司）和Effective Measure，担任高级工程师，负责设计，开发和管理用于采集，处理和报告网络数据的平台（基于PHP，Java和CDH）。现任职Cloudera，担...

2019-12-24 09:54:17 726

转载一步一步理解Impala query profile（一）

作者：Eric Lin (林晨辉)， Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学， Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise（现为Experian的子公司）和Effective Measure，担任高级工程师，负责设计，开发和管理用于采集，处理和报告网络数据的平台（基于PHP，Java和CDH）。现任职Cloudera，担...

2019-12-24 09:53:11 1395

原创 0735-什么是Cloudera Management Service - 1

作者：Eric Lin (林晨辉)， Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学， Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise（现为Experian的子公司）和Effective Measure，担任高级工程师，负责设计，开发和管理用于采集，处理和报告网络数据的平台（基于PHP，Java和CDH）。现任职Cloudera，担...

2019-12-24 09:51:58 846 1

原创 0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）

1 文档编写目的在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续)》中介绍了如何在集群外的客户端节点上访问Hadoop集群，本篇文章在前面文章的基础上基于Kerberos环境的CDH集群介绍，如何在集群外客户端跨网段向Kerberos环境的Hadoop集群提交MapReduce和Spark作业。测试环境1.Redhat7.42.CD...

2019-12-24 09:51:18 637 1

原创 0519-如何解决Cloudera Manager主机页面出现重复主机异常

1 问题重现通过Cloudera Manager主页访问“主机”页面，发现其中一台主机有2条重复的记录，一条有角色相关信息但是心跳明显超时很久了，另外一台有心跳但是没有主机角色信息，而且所有主机都是未知状态，如下：回到Cloudera Manager主页也发现无论是Cloudera Management Service还是集群的Hadoop服务都是未知状态。重启Cloudera Mana...

2019-12-16 15:11:21 480

原创 0520-如何使用非root用户启动CM的Server和Agent服务

1 文档编写目的根据前面的安装文档，我们知道CDH的安装只能使用root或者具有sudo权限的用户进行安装，但大多数企业对于服务器的root用户的管控比较严格，大多数情况下都不能够直接使用或者需要申请比较麻烦。对于这种情况，Cloudera官方提供了一种单用户安装CDH的模式，参考Fayson前面的文章《0517-如何在CDH5中使用单用户模式》。但实际情况是这种方法非常麻烦，官方其实也不建议使...

2019-12-16 15:09:38 744

原创 0521-Hadoop命令无法访问HDFS路径诡异问题解决

1 诡异现象Fayson今天在集群中浏览HDFS数据目录时发现，通过Cloudera Manager的“文件浏览”功能可以正常的浏览某一个HDFS数据目录，如下显示：但Fayson在脚本或命令行操作该数据目录时又提示“/tmp/guiyi/123: No such file or directory”，异常如下：2 问题分析在Cloudera Manager上可以正常的浏览该数据目录，...

2019-12-16 15:07:49 1254

原创 0522-Confluent获D轮融资1.25亿，估值25亿

作者：Alex KonradConfluent创始人Neha Narkhede，CEO Jay Kreps和Jun Rao开源软件领域今天又诞生了一家新的价值数十亿美元的新公司，Confluent，它是为Apache Kafka提供商业支持的公司。硅谷著名的一些投资公司都投资了数千万美元给这家公司，他们认为这是多年来发展最快的创业公司之一。Confluent专注于称为事件流的数据管理领域，...

2019-12-16 15:06:31 281

原创 0523-5.15-为Cloudera Manager配置自定义告警脚本

1 文档编写目的Cloudera Manager支持三种方式的告警输出，在前面的文章《如何为CDH集群配置警报邮箱》和《如何通过Cloudera Manager配置使用SNMP方式转发告警》Fayson介绍了邮件和SNMP两种方式的告警接入，那Cloudera Manager还支另外一种自定义告警脚本方式接入告警，本篇文章Fayson主要介绍如何使用自定义告警脚本的方式将CM告警输出。...

2019-12-16 15:01:21 1282

原创 0524-6.1-如何使用Cloudera Manager启用HDFS的HA

1 文档编写目的在HDFS集群中NameNode存在单点故障（SPOF），对于只有一个NameNode的集群，如果NameNode机器出现意外，将导致整个集群无法使用。为了解决NameNode单点故障的问题，Hadoop给出了HDFS的高可用HA方案，HDFS集群由两个NameNode组成，一个处于Active状态，另一个处于Standby状态。Active NameNode可对外提供服务，而S...

2019-12-16 14:59:22 307

原创 0525-6.1-如何使用Cloudera Manager禁用HDFS的HA

1 文档编写目的前面Fayson写过《0524-6.1-如何使用Cloudera Manager启用HDFS的HA》。本篇文章主要讲述如何使用Cloudera Manager禁用HDFS HA。内容概述1.禁用HDFS HA2.更新Hive Metastore NameNode3.HDFS功能可用性测试4.Hive及Impala测试测试环境1.CM和CDH版本为6...

2019-12-16 14:57:19 250

原创 0526-6.1-如果你不小心删了一个NameNode1

1 文档编写目的在启用了HDFS HA的集群，2个NameNode节点上一般都会部署三个角色：NameNode，JournalNode和Failover Controller。在实际生产中，我们有时会碰到一个情况，你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager...

2019-12-16 14:55:24 1080 1

原创 0527-6.1-如果你不小心删了一个NameNode2

1 文档编写目的在启用了HDFS HA的集群，2个NameNode节点上一般都会部署三个角色：NameNode，JournalNode和Failover Controller。在实际生产中，我们有时会碰到一个情况，你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager...

2019-12-16 14:53:47 388

原创 0528-6.1-如何迁移NameNode相关角色

1 文档编写目的这里我们假设一个场景，你已经有一个CDH集群了，因为硬件或者OS升级，你需要把这个节点服务器拿出来进行维护处理，如果是DataNode是比较简单的，可以很简单的进行下线甚至暴力删除都可以直接将其从集群中剥离出来，但是如果这个节点是NameNode呢。其实Cloudera Manager也提供了界面化迁移角色的功能，比较方便，我们知道NameNode节点一般都会同时有NameNod...

2019-12-16 14:52:20 784

原创 0529-5.15.0-这次玩儿大了，找不回了

1 文档编写目的前两天客户问了一个问题，HDFS上删除的数据还能不能恢复？碰到这个问题第一反应“在执行命令的这个用户下垃圾回收站找到恢复不就的了？”，用户删除数据发现操作失误的时间并不长也没有超过垃圾回收站的清空时间，但是无论怎么找也找不到被删除的数据，这次真的玩儿大了。。。经沟通发现用户是在MapReduce作业里面调用了HDFS的API进行删除操作，那这个删除与我们命令行使用hadoop ...

2019-12-16 14:51:10 188

原创 0530-6.1-如何只是迁移NameNode或JournalNode

1 文档编写目的Fayson在上一篇文章《0528-6.1-如何迁移NameNode相关角色》中介绍过通过Cloudera Manager迁移管理节点NameNode，JournalNode和Failover Controller三个角色到其它节点。本文主要介绍如何只是迁移NameNode+Failover Controller或JournalNode角色。测试环境1.CDH6.12....

2019-12-16 14:50:00 255

空空如也

空空如也