自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

GulfMoon

记录点滴,收获成长!一只奋斗在大数据开发领域的小猿鹏 :)

  • 博客(43)
  • 资源 (1)
  • 收藏
  • 关注

原创 Python读取Excel文件

read_excel 读取方式依赖包pip3 install xlrd1.0版本import pandas as pdio = r'E:\Desktop\jupyter_data\test.xlsx'data = pd.read_excel(io,sheet_name = 'sheet1')报错1:OSError: [Errno 22] Invalid argument: '\u202aE原因:通过test文件右键属性,复制的文件全路径,如下:复制的内容:‪E:\Desktop\j

2021-03-17 16:32:20 443 2

原创 区块链技术-Hyperledger Fabric 1.4.1安装教程

Centos7安装超级账本Hyperledger Fabric 1.4.1

2021-03-02 16:09:15 990

原创 使用pip命令安装第三方包时报错:\lib\site-packages\pip\_vendor\urllib3\response.py", line 397

一、报错通过"pip install jupyter"安装jupyter时候,报错如下:\lib\site-packages\pip\_vendor\urllib3\response.py", line 397 ......在之前的笔记本上一直是使用这个命令安装的也没有出错,https://blog.csdn.net/u011817217/article/details/86715...

2019-10-21 13:30:11 21018 8

原创 关于Spark SQL外部表在实战中遇到的问题

笔者之前写过一篇关于Spark SQL外部表的比较全面的学习实验博客,参https://blog.csdn.net/u011817217/article/details/92403843本篇旨在描述和总结在实际工作中使用Spark SQL外部表遇到的一些问题以及相应的解决方案。一、需求描述外围系统通过文件接口的方式定期给一份数据文件,关于接口描述和数据文件示例如下:1. 文件接口...

2019-07-15 19:34:10 1047

原创 Scala中Seq转Map的方法(:_*)

近日在学习Kafka源码的时候,对代码中 .toSeq: _*的语法不是很理解,于是在scala shell中做了几次尝试,理解了其中的用法含义。1. 源码topicRegistry的数据结构:2. 尝试1)Seq(1,2,3,4)回到源码查看topicRegistry的数据结构,发现调用toSeq方法的数据结构是元组的List,而且语法:_*是在Map()构造函数...

2019-07-05 10:39:51 4359 2

原创 Scala项目通过Maven打成assembly包

一、背景工作中在使用Scala语言开发大数据应用项目的时候,需要将工程打成assembly包(依赖的第三方jar会打到生成的jar包中),通过spark-submit命令提交作业。Scala项目是通过Maven构建和管理其依赖,那么需要pom文件中使用哪些插件才能将工程打成assembly包呢?二、plugins1.maven-compiler-plugin如果不指定代码要...

2019-06-22 17:05:15 1224

原创 使用jar命令替换jar包中指定文件

一、jar命令用法 -c 创建新的归档文件 -t 列出归档目录和文件 -x 解压缩已归档的指定(或所有)文件 -u 更新现有的归档文件 -v 在标准输出中生成详细输出 / 提供更详细输出信息 -f 指定归档文件名 / 为压缩包指定名字 -m 包含指定清单文件中的清单信息 -e 为捆绑到可执行 jar 文件的独立应用程序指定应用程序入口点 -0 仅存储,...

2019-06-16 17:46:12 10471 2

原创 SparkSQL中创建外部表及使用

一、使用需求工作中经常会需要与外围系统打交道,由于外围系统和本系统不处于同一个Hadoop集群下,且不具有访问本系统的权限,所以基本上大数据量的接口都是以文件的方式进行传输。如何快速、便捷的将文件入Spark库中?通过SparkSQL中创建外部表的方式就能够很好地解决这一需求。二、解决方案1. hdfs上创建存放外部表数据文件的目录hdfs dfs -mkdir -p /hu...

2019-06-16 16:36:56 8630

原创 SparkSQL中使用concat_ws函数报错:cannot resolve 'concat_ws(,,(hiveudaffunction...

一、报错信息Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve 'concat_ws(,,(hiveudaffunction(HiveFunctionWrapper(org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectSet...

2019-06-13 11:42:24 3621

原创 spark-submit以集群方式提交应用报错:Exception in thread "main" java.sql.SQLException: No suitable driver

一、问题背景因现场项目临近上线,在现场测试环境部署后台程序时候出现各种奇怪的问题,这些都是在公司内部测试环境都没有遇到过的,很有记录下来的必要。Spark应用程序的主要业务逻辑是将MySQL中表数据全量同步到Spark中,以yarn-client模式提交执行报错:Exception in thread "main" java.sql.SQLException: No suitable ...

2019-05-15 15:39:55 1613 1

原创 使用Maven Helper插件解决jar包依赖冲突问题

一、何为依赖冲突Maven的依赖机制会导致Jar包的冲突。举个例子,现在你的项目中,使用了两个Jar包,分别是A和B。现在A需要依赖另一个Jar包C,B也需要依赖C。但是A依赖的C的版本是1.0,B依赖的C的版本是2.0。这时候,Maven会将这1.0的C和2.0的C都下载到你的项目中,这样你的项目中就存在了不同版本的C,可能会出现两种情况:1.A和B引用的C版本相同,这时按照pom定义...

2019-05-14 10:50:29 2381

原创 Visual Studio Code使用教程

Visual Studio Code是一款轻量级的文档编辑器和资源管理工具,笔者之前一直使用Notepad++作为Shell脚本的编辑器,但是存在一个痛点就是分散在不同路径下的Shell脚本文件很难集中起来管理,也不能进行跨文档内容搜索。虽然可以通过IDEA来实现这个需求,但未必有点炮轰蚊子的感觉了。本文从Visual Studio Code的下载安装、插件、快捷键、工作区等方面逐一介绍。...

2019-05-06 10:52:39 25906

原创 SparkSQL整合Hive实现metastore元数据共享

一、需求在兼容Hive技术的前提下,推进SparkSQL技术的使用,那么就会衍生出一个问题:如何让Hive和SparkSQL数据共享?,比如在Hive中操作,然后在SparkSQL中能够看到变化,反之亦然。注意:记住一个前提,先使用Hive在先,后引入SparkSQL,笔者在操作过程中发现了一个问题,之前SparkSQL中的数据会看不到,只能看到Hive中的,这个问题有待进一步研究。H...

2019-03-26 14:46:47 5818 1

原创 Hive安装、使用及运行参数配置说明

一、Hive安装1. 官网下载hive安装包并解压;2. 修改环境变量vim ~/.bash_profileexport HIVE_HOME=export PATH=$PATH:$HIVE_HOME/binsource ~/.bash_profile3.执行hive --version4. 配置hive-env.shcp $HIVE_HOME/conf/...

2019-03-26 11:14:34 1285

原创 Hive报错:java.net.URISyntaxException: Relative path in absolute URI: ${system:user.name}

按照博文https://blog.csdn.net/u011817217/article/details/88813874 安装Hive,在启动Hive并show databases时,报错:Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyntaxExcept...

2019-03-26 10:59:32 3032 1

原创 Hadoop配置文件--[core-site.xml]说明

一、官方文档说明http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xml二、参数说明1.fs.defaultFS比如:hdfs://streamcluster2.hadoop.tmp.dir不配置的话是有默认值的,但是/tmp目...

2019-03-25 10:30:27 1585

原创 Spark多版本问题:Multiple versions of Spark are installed but SPARK_MAJOR_VERSION is not set

一、问题背景Shell脚本A中编写了提交Spark作业的命令(spark-submit ...),Shell脚本B作为统一调度脚本中间调用了脚本A,但是作业并没有提交yarn,查看日志信息如下:Multiple versions of Spark are installed but SPARK_MAJOR_VERSION is not set二、分析过程1. 查看Spark当前版本...

2019-02-22 14:57:04 2029

原创 Spark启动报java.net.ConnectException

一、报错信息在Spark集群中的某台机器上执行spark-shell命令时,报错信息如下:19/02/18 10:41:53 INFO retry.RetryInvocationHandler: Exception while invoking getClusterMetrics of class ApplicationClientProtocolPBClientImpl over rm...

2019-02-18 12:57:01 4087

原创 Windows端安装Jupyter教程

1. 安装PythonPython多版本兼容,请移步:https://blog.csdn.net/u011817217/article/details/86605178 2. pip install jupyter1)先查看Python的默认版本从上图可以看出,Python37是默认的,因为排在第一位。2)cd c:\Python37\Scripts3)验证是否安装...

2019-01-31 15:12:50 1334

原创 Subversion版本管理工具在工作中应用的注意事项

目前工作中,使用的版本管理工具为Subversion,聊到SVN肯定离不开TortoiseSVN(小乌龟)。通过小乌龟我们可以很方便的更新和提交代码文件,但是在实际开发中我们都是使用集成开发工具,比如IDEA,那么在IDEA中修改了代码,如何快捷的提交呢?而不是回到代码文件所在目录,使用小乌龟去提交。且看下文:1. 安装TortoiseSVN注意:一定要勾选 Command Line2...

2019-01-28 16:32:38 144

原创 Python多版本兼容(Python 2.x与3.x共存)

笔者在实际工作开发中需要经常在Python2.x和3.x版本间来回切换,于是总结下如何在Windows电脑上安装Python2.x和Python3.x,并配置优先级以及如何快速切换。一、官网下载Python安装包官网地址:https://www.python.org/ 下拉到网页最下端,点击Downloads->Windows可以下载Windows版的多个版本安装包...

2019-01-23 10:32:53 7187

原创 Windows端本地开发Spark应用-new HiveContext报NullPointerException

Windows电脑开发Spark应用时,以local模式运行在本地,通过new HiveContext(sc)报java.lang.NullPointerExceptionat org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)一、环境相关1. Windows 102. IDEA 2...

2019-01-22 15:44:04 471

原创 Spark Streaming整合Flume push方式报错-org.jboss.netty.channel.ChannelException: Failed to bind to

一、报错信息ERROR ReceiverTracker: Deregistered receiver for stream 0: Error starting receiver 0 - org.jboss.netty.channel.ChannelException: Failed to bind to: 18/12/21 15:09:02 INFO ReceiverSupervisor...

2018-12-21 15:59:00 4118 1

原创 Spark Streaming采用Direct Approach(No Receiver)方式连接Kafka消费消息时报错

一、报错信息Exception in thread "main" java.lang.ClassCastException: kafka.cluster.BrokerEndPoint cannot be cast to kafka.cluster.Broker 18/12/21 11:09:18 INFO BlockManagerMaster: Trying to register B...

2018-12-21 11:22:35 209

原创 Spark Streaming消费Kafka生产的消息报错-本机调试阶段

一、报错信息18/12/21 09:56:48 INFO SyncProducer: Connected to gulfmoon:9092 for producing18/12/21 09:56:48 INFO SyncProducer: Disconnecting from gulfmoon:909218/12/21 09:56:48 WARN ClientUtils$: Fetchin...

2018-12-21 10:03:13 281

原创 MongoDB安装教程(Windows、Linux、macOS)

一、前期准备1. 下载安装包官网下载社区版:https://www.mongodb.com/download-center?jmp=nav#community  2. 官方安装文档https://docs.mongodb.com/manual/tutorial/install-mongodb-on-windows/  二、Windows安装MongoDB1....

2018-09-27 20:36:58 243

原创 spark中thriftserver服务端、beeline客户端使用

一、thriftserver服务端1. 启动服务$SPARK_HOME/sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10000 --hiveconf hive.server2.thrift.bind.host=c3pretest11)指定服务端端口hive.server2.thrift.port...

2018-09-27 20:10:34 1835

原创 Spark连接MongoDB使用教程

一、前期准备源自MongoDB官方文档,https://docs.mongodb.com/spark-connector/v1.1/getting-started/ 二、编程实现1. maven工程添加依赖maven中央仓库搜索:http://mvnrepository.com/artifact/org.mongodb.spark/mongo-spark-connector ...

2018-09-27 20:05:43 14006 1

原创 spark-submit 执行出现“Cannot allocate memory”错误

There is issufficient memory for the Java Runtime Environment to continue. Native memory allocation(malloc) failed to allocate xxx bytes for committing reserved memory.一、原因分析1. spark-env.sh 配置不合...

2018-09-11 14:25:49 3076

转载 IDEA取消SVN关联,再重新分享项目

转载于:https://blog.csdn.net/bbj12345678/article/details/79974132 安装插件1、打开Intellij中工具栏File的setting(ctrl+alt+s),选择plugins,在右边搜索框输入“SVN”,搜索。选择“SVN disconnect”。2、安装此插件,重启intellij idea...

2018-08-17 15:52:51 4024

原创 CentOS7.X安装MySQL教程

笔者环境:CentOS:7.2.1511Hive:1.1.0-cdh5.7.0本文旨在记录CentOS安装MySQL中遇到的问题及相应解决方案。1、yum访问不了外网yum安装时出现错误Errno 14 Couldn't resolve host的解决办法DNS问题:systemctl restart NetworkManagervi /etc/resol...

2018-08-17 14:14:22 390

原创 Spark源码编译教程

一、背景从Spark官网https://spark.apache.org/ 下载的预编译版本的Spark,受到诸多限制:1. 比如我们生产环境使用的Hadoop是CDH版本,那么从官网下载的预编译版本就不能使用;2. 为了兼容Spark新特性,生产环境只升级了HDFS组件,那么预编译版本也不能使用;因此,为了更好的兼容生产环境中大数据生态组件,我们必须学会如何编译Spark源码。...

2018-08-16 15:07:58 2813

原创 Phoenix创建视图和索引--基于HBase

一、HBase shell命令1. 进入hbase shell# Step1:进入hbase的安装路径的bin目录cd /home/gulfmoon/apps/hbase-1.2.4/bin# Step2:启动hbase shellhbase shell启动成功后显示的信息:2. 查看hbase中所有的表!list3. help大法 二、Ph...

2018-08-15 10:25:45 4386 1

原创 DbVisualizer配置Hive连接

一、安装DbVisualizer官方下载地址:  http://www.dbvis.com/ 也可以从网上下载破解版程序,本文使用的版本是DbVisualizer 10.0.1具体的安装步骤可以百度,或是修改安装目录之后默认安装就可以。 二、DbVisualizer中添加hive驱动1. 准备的jar包spark-assembly-1.6.3-hadoop2.6.0.j...

2018-08-14 20:20:25 1598

原创 Spark SQL命令“load data”是否会删除源文件的研究

load data 命令既可以将本地文件加载到Spark表,也能将HDFS上文件加载到Spark表;因此,分两种情况分别研究:情形一:将本地文件加载到Spark表load data local inpath '/home/gulfmoon/data/test.txt' into table test;经验证,此情形并不会将“/home/gulfmoon/data/test.txt”文...

2018-08-14 19:06:17 2433

原创 JDBC连接方式批处理将数据插入MySQL、Oracle数据库中

一、工具类连接工具类==> JDBC方式连接MySQL、Oracle、Hive、Spark等,通用工具类(Scala版),在此基础上添加批量插入的方法,代码如下:def executeBatchUpdate(sqls: ArrayBuffer[String]){ var conn:Connection = null var stat:Statement = null...

2018-08-14 16:48:37 355

原创 JDBC方式连接MySQL、Oracle、Hive、Spark等,通用工具类(Scala版)

通过JDBC方式连接MySQL、Oracle、Hive、Spark等数据库,对返回的结果进行处理,方便后续使用;在创建连接时使用了池化技术,保证高效。

2018-08-14 15:07:36 1891

原创 DBVisualizer工具配置Phoenix连接,访问HBase数据库

一、工具清单DBVisualizer ;V10.0 HBase ;V1.2.4 Phoenix ; V4.14 phoenix-4.14.0-HBase-1.2-client.jar  hbase-site.xml二、操作步骤1. 先决条件确保Linux端已经安装好Hadoop、HBase、Phoenix;Windows端安装好DBVisualizer工具。2. 准备ph...

2018-08-14 13:08:07 3358 3

原创 Windows端创建的Shell脚本上传到Linux,运行报错问题解决

一、原因报错信息:/bin/bash^M: bad interpreter: No such file or directoryWindows平台和Linux平台之间的文件格式不一样导致;因为在dos/window下按一次回车键实际上输入的是“回车(CR)”和“换行(LF)”,而Linux/unix下按一次回车键只输入“换行(LF)”,所以修改的sh文件在每行都会多了一个CR,所以Li...

2018-08-14 11:31:12 479

原创 Shell脚本中输出标准日志格式信息

一、应用场景我们在使用IDE工具编程调试时,控制台都会输出一些日志信息,比如:这样能很方便定位到bug的问题所在。但是,我们在写Shell脚本的时候,能不能也输出上面比较全的信息呢?答案是:肯定的,且看。二、具体实现1. 关键命令CMD_ECHO='echo'SCRIPT_NAME=`basename $0`LOG_PRINT="eval $CMD_ECHO \"...

2018-08-14 10:41:37 6812

表白工具999朵玫瑰

屌丝男,宅男必备表白软件。很管用的哦。

2013-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除