GulfMoon
码龄11年
关注
提问 私信
  • 博客:180,297
    180,297
    总访问量
  • 41
    原创
  • 1,804,890
    排名
  • 23
    粉丝
  • 0
    铁粉

个人简介:记录点滴,收货成长!一只奋斗在大数据开发领域的小猿鹏:)

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖南省
  • 加入CSDN时间: 2013-08-25
博客简介:

GulfMoon

博客描述:
记录点滴,收获成长!一只奋斗在大数据开发领域的小猿鹏 :)
查看详细资料
个人成就
  • 获得75次点赞
  • 内容获得23次评论
  • 获得280次收藏
  • 代码片获得2,931次分享
创作历程
  • 2篇
    2021年
  • 20篇
    2019年
  • 19篇
    2018年
  • 2篇
    2017年
成就勋章
TA的专栏
  • 数据仓库
  • 区块链
    1篇
  • 工具类
    11篇
  • Shell
    2篇
  • Mysql
    3篇
  • Oracle
    2篇
  • HBase
    2篇
  • Hadoop
    1篇
  • Spark
    16篇
  • Flume
    1篇
  • Kafka
    2篇
  • Storm
  • Redis
  • RocketMQ
  • Sqoop
  • Phoenix
    2篇
  • Hive
    6篇
  • MongoDB
    1篇
  • Spark Streaming
    3篇
  • Python
    4篇
  • Java
  • Maven
    1篇
  • Scala
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

345人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Python读取Excel文件

read_excel 读取方式依赖包pip3 install xlrd1.0版本import pandas as pdio = r'E:\Desktop\jupyter_data\test.xlsx'data = pd.read_excel(io,sheet_name = 'sheet1')报错1:OSError: [Errno 22] Invalid argument: '\u202aE原因:通过test文件右键属性,复制的文件全路径,如下:复制的内容:‪E:\Desktop\j
原创
发布博客 2021.03.17 ·
487 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

区块链技术-Hyperledger Fabric 1.4.1安装教程

Centos7安装超级账本Hyperledger Fabric 1.4.1
原创
发布博客 2021.03.02 ·
1028 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

使用pip命令安装第三方包时报错:\lib\site-packages\pip\_vendor\urllib3\response.py", line 397

一、报错通过"pip install jupyter"安装jupyter时候,报错如下:\lib\site-packages\pip\_vendor\urllib3\response.py", line 397 ......在之前的笔记本上一直是使用这个命令安装的也没有出错,https://blog.csdn.net/u011817217/article/details/86715...
原创
发布博客 2019.10.21 ·
22236 阅读 ·
30 点赞 ·
8 评论 ·
70 收藏

关于Spark SQL外部表在实战中遇到的问题

笔者之前写过一篇关于Spark SQL外部表的比较全面的学习实验博客,参https://blog.csdn.net/u011817217/article/details/92403843本篇旨在描述和总结在实际工作中使用Spark SQL外部表遇到的一些问题以及相应的解决方案。一、需求描述外围系统通过文件接口的方式定期给一份数据文件,关于接口描述和数据文件示例如下:1. 文件接口...
原创
发布博客 2019.07.15 ·
1106 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Scala中Seq转Map的方法(:_*)

近日在学习Kafka源码的时候,对代码中 .toSeq: _*的语法不是很理解,于是在scala shell中做了几次尝试,理解了其中的用法含义。1. 源码topicRegistry的数据结构:2. 尝试1)Seq(1,2,3,4)回到源码查看topicRegistry的数据结构,发现调用toSeq方法的数据结构是元组的List,而且语法:_*是在Map()构造函数...
原创
发布博客 2019.07.05 ·
4427 阅读 ·
0 点赞 ·
2 评论 ·
2 收藏

Scala项目通过Maven打成assembly包

一、背景工作中在使用Scala语言开发大数据应用项目的时候,需要将工程打成assembly包(依赖的第三方jar会打到生成的jar包中),通过spark-submit命令提交作业。Scala项目是通过Maven构建和管理其依赖,那么需要pom文件中使用哪些插件才能将工程打成assembly包呢?二、plugins1.maven-compiler-plugin如果不指定代码要...
原创
发布博客 2019.06.22 ·
1260 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

使用jar命令替换jar包中指定文件

一、jar命令用法 -c 创建新的归档文件 -t 列出归档目录和文件 -x 解压缩已归档的指定(或所有)文件 -u 更新现有的归档文件 -v 在标准输出中生成详细输出 / 提供更详细输出信息 -f 指定归档文件名 / 为压缩包指定名字 -m 包含指定清单文件中的清单信息 -e 为捆绑到可执行 jar 文件的独立应用程序指定应用程序入口点 -0 仅存储,...
原创
发布博客 2019.06.16 ·
10715 阅读 ·
6 点赞 ·
2 评论 ·
25 收藏

SparkSQL中创建外部表及使用

一、使用需求工作中经常会需要与外围系统打交道,由于外围系统和本系统不处于同一个Hadoop集群下,且不具有访问本系统的权限,所以基本上大数据量的接口都是以文件的方式进行传输。如何快速、便捷的将文件入Spark库中?通过SparkSQL中创建外部表的方式就能够很好地解决这一需求。二、解决方案1. hdfs上创建存放外部表数据文件的目录hdfs dfs -mkdir -p /hu...
原创
发布博客 2019.06.16 ·
8806 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

SparkSQL中使用concat_ws函数报错:cannot resolve 'concat_ws(,,(hiveudaffunction...

一、报错信息Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve 'concat_ws(,,(hiveudaffunction(HiveFunctionWrapper(org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectSet...
原创
发布博客 2019.06.13 ·
3760 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark-submit以集群方式提交应用报错:Exception in thread "main" java.sql.SQLException: No suitable driver

一、问题背景因现场项目临近上线,在现场测试环境部署后台程序时候出现各种奇怪的问题,这些都是在公司内部测试环境都没有遇到过的,很有记录下来的必要。Spark应用程序的主要业务逻辑是将MySQL中表数据全量同步到Spark中,以yarn-client模式提交执行报错:Exception in thread "main" java.sql.SQLException: No suitable ...
原创
发布博客 2019.05.15 ·
1666 阅读 ·
2 点赞 ·
1 评论 ·
3 收藏

使用Maven Helper插件解决jar包依赖冲突问题

一、何为依赖冲突Maven的依赖机制会导致Jar包的冲突。举个例子,现在你的项目中,使用了两个Jar包,分别是A和B。现在A需要依赖另一个Jar包C,B也需要依赖C。但是A依赖的C的版本是1.0,B依赖的C的版本是2.0。这时候,Maven会将这1.0的C和2.0的C都下载到你的项目中,这样你的项目中就存在了不同版本的C,可能会出现两种情况:1.A和B引用的C版本相同,这时按照pom定义...
原创
发布博客 2019.05.14 ·
2473 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

Visual Studio Code使用教程

Visual Studio Code是一款轻量级的文档编辑器和资源管理工具,笔者之前一直使用Notepad++作为Shell脚本的编辑器,但是存在一个痛点就是分散在不同路径下的Shell脚本文件很难集中起来管理,也不能进行跨文档内容搜索。虽然可以通过IDEA来实现这个需求,但未必有点炮轰蚊子的感觉了。本文从Visual Studio Code的下载安装、插件、快捷键、工作区等方面逐一介绍。...
原创
发布博客 2019.05.06 ·
26061 阅读 ·
14 点赞 ·
0 评论 ·
75 收藏

SparkSQL整合Hive实现metastore元数据共享

一、需求在兼容Hive技术的前提下,推进SparkSQL技术的使用,那么就会衍生出一个问题:如何让Hive和SparkSQL数据共享?,比如在Hive中操作,然后在SparkSQL中能够看到变化,反之亦然。注意:记住一个前提,先使用Hive在先,后引入SparkSQL,笔者在操作过程中发现了一个问题,之前SparkSQL中的数据会看不到,只能看到Hive中的,这个问题有待进一步研究。H...
原创
发布博客 2019.03.26 ·
5894 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Hive安装、使用及运行参数配置说明

一、Hive安装1. 官网下载hive安装包并解压;2. 修改环境变量vim ~/.bash_profileexport HIVE_HOME=export PATH=$PATH:$HIVE_HOME/binsource ~/.bash_profile3.执行hive --version4. 配置hive-env.shcp $HIVE_HOME/conf/...
原创
发布博客 2019.03.26 ·
1328 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive报错:java.net.URISyntaxException: Relative path in absolute URI: ${system:user.name}

按照博文https://blog.csdn.net/u011817217/article/details/88813874 安装Hive,在启动Hive并show databases时,报错:Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyntaxExcept...
原创
发布博客 2019.03.26 ·
3128 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏

Hadoop配置文件--[core-site.xml]说明

一、官方文档说明http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xml二、参数说明1.fs.defaultFS比如:hdfs://streamcluster2.hadoop.tmp.dir不配置的话是有默认值的,但是/tmp目...
原创
发布博客 2019.03.25 ·
1649 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark多版本问题:Multiple versions of Spark are installed but SPARK_MAJOR_VERSION is not set

一、问题背景Shell脚本A中编写了提交Spark作业的命令(spark-submit ...),Shell脚本B作为统一调度脚本中间调用了脚本A,但是作业并没有提交yarn,查看日志信息如下:Multiple versions of Spark are installed but SPARK_MAJOR_VERSION is not set二、分析过程1. 查看Spark当前版本...
原创
发布博客 2019.02.22 ·
2078 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark启动报java.net.ConnectException

一、报错信息在Spark集群中的某台机器上执行spark-shell命令时,报错信息如下:19/02/18 10:41:53 INFO retry.RetryInvocationHandler: Exception while invoking getClusterMetrics of class ApplicationClientProtocolPBClientImpl over rm...
原创
发布博客 2019.02.18 ·
4185 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

Windows端安装Jupyter教程

1. 安装PythonPython多版本兼容,请移步:https://blog.csdn.net/u011817217/article/details/86605178 2. pip install jupyter1)先查看Python的默认版本从上图可以看出,Python37是默认的,因为排在第一位。2)cd c:\Python37\Scripts3)验证是否安装...
原创
发布博客 2019.01.31 ·
1386 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Subversion版本管理工具在工作中应用的注意事项

目前工作中,使用的版本管理工具为Subversion,聊到SVN肯定离不开TortoiseSVN(小乌龟)。通过小乌龟我们可以很方便的更新和提交代码文件,但是在实际开发中我们都是使用集成开发工具,比如IDEA,那么在IDEA中修改了代码,如何快捷的提交呢?而不是回到代码文件所在目录,使用小乌龟去提交。且看下文:1. 安装TortoiseSVN注意:一定要勾选 Command Line2...
原创
发布博客 2019.01.28 ·
162 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多