自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 十一、Map过程中的InputFormat

上篇博客介绍了Hadoop的序列化,本篇主要介绍MapReduce的框架原理,关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~一、InputFormat数据输入1.1切片与MapTask并行度 (1)一个Job的Map阶段并行度由客户端在提交Job时的切片数决定。(2)每一个Split切片分配一个MapTask并行实例处理。(3)默认情况下,切片大小=blocksize。(4)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片。...

2020-08-01 14:22:33 64

原创 十、Hadoop的序列化

上篇博客介绍了Hadoop核心组件之MapReduce,本篇主要介绍Hadoop的序列化,关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~一、序列化概述 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将受到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。...

2020-07-28 11:16:44 147

原创 九、Hadoop核心组件之MapReduce

前面几篇文章我们呢着重介绍了HDFS,从这篇开始,我们开始介绍MapReduce,关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~目录一、MapReduce的定义二、MapReduce的优缺点2.1优点2.2缺点三、MapReduce的核心思想四、MapReduce进程五、编码实现MapReduce的WordCount5.1序列化类型5.2编程规范5.3实现WordCount一、MapReduc...

2020-07-27 15:10:31 662

原创 八、HDFS中的DataNode

上篇博客介绍了HDFS中的NameNode和SecondaryNameNode,本篇主要介绍HDFS中的DataNode,关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~一、DataNode的工作机制 (1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件:一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNo...

2020-07-27 10:31:18 499

原创 七、Hadoop源码编译

在上篇博客(《六、HDFS中的NameNode和SecondaryNameNode》)的CheckPoint时间设置中有用到hdfs-default.xml这个文件,这时候会有很多读者好奇,这个文件到底是在什么地方,因为,通过咱们之前安装的Hadoop并没有发现这个配置文件。这就是咱们本篇博客的目的——源码编译,这个配置文件就是在源码中的,下面一起看看吧~ 关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~一、准备工作 1、首先保证系统可...

2020-07-26 15:46:09 687

原创 六、HDFS中的NameNode和SecondaryNameNode

上篇博客介绍了Hadoop的核心组件HDFS,本篇主要介绍HDFS中的NameNode和SecondaryNameNode,关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~ 在这之前,我们首先得弄明白一件事情:NameNode中的元数据是存储在哪里的?我们可以假设一下,如果元数据存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还要响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失...

2020-07-26 13:57:22 1780

原创 五、Hadoop核心组件之HDFS

上篇博客介绍了Hadoop的本地模式和伪分布式,本篇主要介绍Hadoop的完全分布式,关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~一、HDFS的产生背景 随着数据量越来越大,一个操作系统存不下所有的数据,那么就需要分配到更多的操作系统中,但是这样不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,而HDFS正式分布式文件管理系统中的一种。二、HDFS的定义 HDFS(Hadoop D...

2020-07-25 14:26:39 1694

原创 四、Hadoop的运行模式(完全分布式)

上篇博客介绍了Hadoop的本地模式和伪分布式,本篇主要介绍Hadoop的完全分布式,关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~一、分发命令以及分发脚本 在介绍完全分布式之前,先来看一下相关的分发命令。1.1 scp命令 scp可以实现服务器与服务器之间的数据拷贝。 例如:将node1中的hadoop及jdk分发到node2上[root@node1 modules]# scp -r ./had...

2020-07-25 14:25:41 170

原创 三、Hadoop运行模式(本地模式、伪分布模式)

上篇博客介绍了Linux下搭建Hadoop运行环境,本篇主要介绍Hadoop的本地运行模式和伪分布式模式,关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~一、本地模式1.1 官方Grep案例1、在hadoop-2.7.2下创建input文件夹[root@node1 hadoop-2.7.2]# mkdir input2、将Hadoop的xml配置文件拷贝到input目录下[root@node1 hadoop-2.7.2]# cp ...

2020-07-25 14:24:45 150

原创 二、Linux下搭建Hadoop的运行环境

上一篇文章简单的介绍了一下Hadoop,本篇主要目的是搭建Hadoop的运行环境,关注专栏《from zero to hero(Hadoop篇)》查看相关系列的文章~一、 虚拟机准备1、修改主机名(这里主机名设置为node1)。hostnamectl set-hostname node12、配置主机映射,在/etc/hosts中添加如下内容(这里192.168.0.192为本机的ip地址)。192.168.0.192 node13、关闭防火墙。systemct...

2020-07-25 14:22:49 182

原创 一、Hadoop框架介绍

OK~从今天开始,我们就开始我们的fromzero tohero大数据系列的博客编写,今天是第一篇,开篇为《Hadoop框架介绍》,Hadoop系列将会收录在《from zero to hero(Hadoop篇)》专栏中,后续还会继续推出大数据框架的其他组件系列,敬请期待……下面,大家就跟我一起踏上fromzero tohero的旅途吧!一、 Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析...

2020-07-25 14:20:15 857 1

原创 plsql中运行.sql文件

1、打开堡垒机,登上plsql。右键-->“Command Window” 2、在命令行窗口输入如下命令:@sql文件所在的路径,例如: 等待执行结束即可。

2020-07-24 15:55:30 68

原创 【Phoenix】 ERROR 726 (43M10): Inconsistent namespace mapping properties.

【问题描述】 今天在CDH集群中集成了Phoenix服务,但是在启动的时候却报了如下的错误:Error: ERROR 726 (43M10): Inconsistent namespace mapping properties. Ensure that config phoenix.schema.isNamespaceMappingEnabled is consistent on client and server. (state=43M10,code=726)java.sql.S...

2020-07-11 15:05:38 186

原创 CDH6.3.1安装Phoenix服务

最近因为工作原因需要在CDH集群中安装Phoenix服务,小编的集群使用的CDH6.3.1的版本,具体集成过程一起来看一下吧~一、下载parcel包下载目录为...

2020-07-11 14:56:18 203

原创 CDH6.3.1部署大数据集群
原力计划

近期公司打算重新部署CDH大数据集群,之前使用的是CDH5.3.6的版本,搭建方式可以参考这里~此次重新部署,打算采用6.3.1的版本,之前的部署方式已然不适用,故重新整理,遂成此文~一、搭建之前的准备...

2020-07-09 15:31:50 258

原创 CDH集群中部署Presto
原力计划

Presto是完全基于内存的并行计算以及分布式SQL交互式查询引擎。它可以共享Hive的元数据,然后直接访问HDFS中的数据。同Impala一样,作为Hadoop之上的SQL交互式查询引擎,通常比Hive要快5-10倍。Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator和多个worker。一、准备工作1、下载安装包 我们使用的安装包是presto-server-0.230.tar.gz,链接路径为:https://repo1....

2020-06-30 11:54:38 403

原创 Could not open client transport with JDBC Uri: jdbc:hive2://cdh-master:10000/default: null

【问题描述】 今天为了在本地使用pyhive连接调用Hive中的数据,在配置文件中添加了如下的配置: 于是,问题来了,小编本地所有使用hiveserver2连接的软件,比如:dbeaver、kettle等都统统报了如下的错误:Could not open client transport with JDBC Uri: jdbc:hive2://10.135.245.27:10000/default: null【解决办法】 这是因为开始了认证的原因,...

2020-06-16 13:33:09 372

原创 【pyhive】本地使用pyhive连接hive数据库踩的坑

OK,本文来看看本地在PyCharm中使用pyhive连接hive数据库时踩过的坑吧,先看看一眼小编的测试代码~ 首先是封装了一个连接hive获取数据的类,因为是测试,所以写的简单了些,如下:'''@File : sql.py@Author: xzw@Date : 2020/6/14@Desc : 封装类'''from pyhive import hiveimport pandas as pdclass TestHive(object): ...

2020-06-15 14:23:23 439

原创 【StreamSets】 JDBC_502 - Batch size greater than maximal batch size allowed in sdc.properties

【问题描述】 今天在CDH集群中使用StreamSets的时候报了如下的错误:JDBC_502 - Batch size greater than maximal batch size allowed in sdc.properties, maxBatchSize: 1000【问题原因】 看错误很明显,默认的maxBatchSize:为1000,咱们从数据源中读取的记录数大于1000,于是会报这个错误。【解决办法】 CDH监控界面找到Strea...

2020-06-15 11:23:32 359

原创 使用StreamSets将MySQL中变化的数据实时的导入到HBase中
原力计划

在之前的博客中,小编介绍了如何在CDH中安装StreamSets,文章链接为:《CDH6.3.1中安装StreamSets3.16.0》。透过这个文章名称也能够看出来小编使用的CDH版本以及安装的StreamSets的版本了,这里就不多说了,本文主要介绍如何使用StreamSets实时的将MySQL中的数据导入到HBase中,主要从以下三个方面进行讲解:一、直接将数据实时的导入到HBase;二、选取部分字段进行实时导入;三、使用SQL查询的方式将MySQL中的数据实时的导入到HBase中。...

2020-06-14 16:44:21 284

原创 CDH6.3.1中安装StreamSets3.16.0

StreamSets(StreamSets Data Collector)是一款开源的强大的实时数据采集和ETL工具,数据源支持包括结构化和半/非结构化,目标源支持HDFS,HBase,Hive,Kudu,Cloudera Search, ElasticSearch等。它包括一个拖拽式的可视化数据流程设计界面,定时任务调度等功能。StreamSets有多种安装方式,可以使用tar包、rpm包、Cloudera Parcels等方式进行安装。由于小编所使用的集群为CDH,故本文就只对其如何集成到...

2020-06-13 13:50:36 336

原创 【SparkStreaming】java.lang.NoClassDefFoundError: org/apache/spark/streaming/StreamingContext

【问题描述】 说一件很神奇的事情,今天在使用SparkStreaming进行Scala编程的时候,发生了如下问题:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/streaming/StreamingContext at com.xzw.sparkstreaming.KafkaToHBase$.main(KafkaToHBase.scala:27) at com.xzw.spar...

2020-06-10 12:40:09 194

原创 SparkStreaming读取Kafka对接Flume抽取到的数据库数据并保存到HBase中,Hive映射HBase进行查询
原力计划

最近公司在做实时流处理方面的工作,具体需求是:将关系型数据库(MySQL、Oracle)中的相关数据表实时的导入到HBase中,并使用Hive映射HBase进行数据查询。公司使用的是CDH6.3.1搭建的大数据集群~一、配置Flume,抽取数据到Kafka 在之前,我写过一篇《Flume抽取Oracle中的数据到Kafka》的文章,里面详细的介绍了如何配置连接Oracle数据库,那么这里就以MySQL数据库为例吧,其实两者的配置大同小异,只不过改几个连接串即可,这里详细的就不...

2020-06-10 12:27:33 583

原创 使用Linux命令分析Nginx日志中的PVUV

近期,公司有统计网站PVUV的想法,巧合的是,公司网站上已经安装了Nginx,分析Nginx的日志来统计PVUV简直是再简单不过了。所谓PV(访问量),即Page View,它是页面浏览量或点击量,用户每次刷新即被计算一次。UV(独立访客),即Unique Visitor,指访问网站的一台电脑客户端为一个访客,00:00-24:00内相同的客户端只被计算一次。IP(独立IP),即Internet Protocol,指独立IP数,00:00-24:00内相同IP地址只被计算一次。下面是分析Ngi...

2020-05-27 12:28:55 752

原创 Python切分图片,组成动图
原力计划

经过520、521的洗礼,我想我必须为522做点什么了,毕竟522也是传说中的黑客情人节嘛。这里想到了之前的一个段子,我再次从网上将原图扒拉了出来。这里解释一下,因为522小编家里有事,所以一直拖到今天才将这篇博客贴出来,没关系,这也是一种缺憾美吧~...

2020-05-25 22:13:42 360

原创 【Python】UserWarning: image file could not be identified because WEBP support not installed

最近在研究使用Python进行图片裁剪的功能,发现Python的PIL模块在处理图片上有不可替代的优势,但是在使用open()方法加载图片时却报了如下的错误:D:\anaconda\lib\site-packages\PIL\Image.py:2860: UserWarning: image file could not be identified because WEBP support not installed warnings.warn(message)Traceback ...

2020-05-21 14:29:51 589

原创 使用PyCharm创建Django项目

啥也不说了,直接开始吧

2020-05-12 10:53:25 322

原创 如何在Hive、MySQL、Oracle中分别添加自增序号

最近公司业务涉及到了在相应库中添加自增序号这种操作,闲暇之余,整理如下,仅供参考~一、Hive 1、首先在Hive中建立一个测试表create table xzw(id int, name string) clustered by (id) into 2 buckets stored as orc TBLPROPERTIES('transactional'=...

2020-04-29 15:14:25 378 1

原创 【Linux】rsync error: remote command not found (code 127) at io.c(226) [sender=3.1.2]

【问题描述】 今天在使用rsync同步数据的时候,出现了如下错误:bash: rsync: command not foundrsync: connection unexpectedly closed (0 bytes received so far) [sender]rsync error: remote command not found (code 127) at ...

2020-04-27 22:39:40 637

原创 CDH6.3.1中Hive开启事务机制

今天在工作中需要在Hive中建立事务表以支持update和delete等操作,这就需要开启Hive的事务机制。在CDH的监控界面,找到Hive的配置,具体操作,请戳这里~。在相关栏目下进行如下设置:服务端:hive-site.xml 的 Hive 服务高级配置代码段(安全阀)hive.txn.manager = org.apache.hadoop.hive.ql.lockm...

2020-04-25 21:21:10 421 1

原创 CDH6.3.1监控界面Hive修改参数

草稿

2020-04-25 21:00:29 498

原创 设置PyCharm运行程序时在Run窗口运行,不在Python Console窗口中运行

最近,我在

2020-04-23 09:29:32 550

原创 Hive切换计算引擎

Hive通过配置hive.execution.engine参数来切换底层的计算引擎,具体为: (1)底层为MapReduce计算引擎set hive.execution.engine=mr;

2020-04-21 08:33:10 388

原创 django.template.exceptions.TemplateSyntaxError: 'staticfiles' is not a registered tag library.

【问题描述】 今天在构建django-rest-swagger的时候报了如下的错误:django.template.exceptions.TemplateSyntaxError: 'staticfiles' is not a registered tag library. Must be one of:admin_listadmin_modifyadmin_urlsc...

2020-04-14 12:08:49 916

原创 【Python】AttributeError: 'AutoSchema' object has no attribute 'get_link'

【问题描述】 今天在搭建django-rest-swagger的时候出现了如下错误:Traceback (most recent call last): File "D:\anaconda\lib\site-packages\django\core\handlers\exception.py", line 34, in inner response = get_r...

2020-04-14 12:04:00 387

原创 【Flume】org.apache.flume.Context.getSubProperties(Ljava/lang/String;)

【问题描述】 今天在CDH集群中使用Flume的时候报了如下的错误:2020-04-10 11:02:33,627 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationProvider$FileWatcherRunnable.run(PollingPrope...

2020-04-13 13:02:46 423

原创 【Flume】Unable to load source type: org.keedio.flume.source.SQLSource

【问题描述】 今天在CDH集群中使用Flume的时候发生了如下的错误:2020-04-10 10:42:07,281 (conf-file-poller-0) [ERROR - org.apache.flume.node.PollingPropertiesFileConfigurationProvider$FileWatcherRunnable.run(PollingProp...

2020-04-13 12:26:51 423

原创 【Hue】Unexpected error. Unable to verify database connection.

【问题描述】 在配置CDH集群时,Hue测试连接数据库报了如下的错误:【问题原因】 查看CDH服务节点的日志信息,发现如下错误:[02/Apr/2020 08:29:30 +0000] settings DEBUG DESKTOP_DB_TEST_NAME SET: /opt/cloudera/parcels/CDH-6.3.1-1....

2020-04-06 20:10:27 380

原创 【Hive】NoViableAltException(309@[213:1: tableName : (db= identifier DOT tab= identifier -> ^( ......

【问题描述】 今天在Hive中建表时发生了如下的错误:NoViableAltException(309@[213:1: tableName : (db= identifier DOT tab= identifier -> ^( TOK_TABNAME $db $tab) |tab= identifier -> ^( TOK_TABNAME $tab) );])a...

2020-04-03 22:00:34 952

原创 【Hue警告】必须在 HBase 服务中配置 Thrift Server 角色以使用 Hue HBase Browser 应用程序。

【问题描述】 今天在打开Hue的UI界面时,报了如下的警告:必须在 HBase 服务中配置 Thrift Server 角色以使用 Hue HBase Browser 应用程序。【解决办法】 解决办法就是在HBase中配置ThriftServer服务,具体操作如下: (1)点击进入HBase详细界面 (2)操作--&g...

2020-04-03 21:12:28 379

提示
确定要删除当前文章?
取消 删除