自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 python2.7 pyspark显示以及插入hive表中文编码问题

我用python2.7的环境下读取excel,这个时候print pandas的dataframe时中文是可以显示的,说明不是python2.7的问题,然后将其转换成spark的dataframe的时候,show或者write到hive表的时候出现了中文乱码,这个时候我使用了pyspark.sql.functions.decode和encode函数,首先将它从utf-8进行解码,然后以ISO-8859-1进行编码,此时中文可以正常显示。df = df.withColumn(column,encode(d

2020-12-28 20:03:35 952

原创 python: 关于解决‘\u‘开头的字符串转中文的方法

python3的解决办法:字符串.encode('utf-8').decode('unicode_escape')python2:字符串.decode('unicode_escape')

2020-11-20 16:23:47 2505

原创 hive子查询操作提取出来建成临时表

with xxx as (select * from xxxx limit 10)select * from xxx

2020-09-11 17:29:08 1085

原创 不需要删除表,直接删除库的操作

drop database xxxx cascade

2020-09-11 17:22:00 152

原创 spark sql使用了UDF生成了新列造成后续使用该新列的时候出现重新使用一次UDF

出现这种情况的原因是因为UDF默认是确定性(deterministic)的,即每一次输入都是确定的,不确定性(nondeterministic)是每一次输入都是不确定的,spark里只需要在udf后面.asNondeterministic()就可以改成不确定性了。目的是为了消除重复性操作...

2020-08-27 11:59:35 447

转载 Python 安装tensorflow,解决报错 Could not find a version that satisfies the requirement tensorflow

使用python2.7在Linux上进行安装tensorflow的时候,一直报Could not find a version that satisfies the requirement tensorflowNo matching distribution found for tensorflow!!!原因居然是在我 做这一步的时候没有加上编码格式./configure --prefix=/usr/local/python-2.7.16 --enable-unicode=ucs4...

2020-08-26 11:51:21 485

原创 无法在IDEA上导入pyspark.sql.functions.col或lit之类的内置函数解决方法

无法在IDEA上导入pyspark.sql.functions.col或lit之类的内置函数解决方法******只需要下载pyspark-stubs 的包*************pip --default-timeout=1000 install pyspark-stubs==2.3.0 -i https://pypi.tuna.tsinghua.edu.cn/simple/我的pyspark是2.3.0版本的,自己可以根据自己的版本设置...

2020-08-20 11:46:45 856 2

原创 InternalConfigurationOptions.INTERNAL_TRANSPORT_POOLING_KEY -> UUID.randomUUID().toString的配置原因

以上意思大概是ES内部有个进行缓存和重用ES连接的资源池,但是好像有bug,每次连接都会绑定一个特定的连接,导致多次连接之后会崩溃,所以需要每次生成不同的池键来进行连接资源池。...

2019-11-05 17:41:45 124

原创 docker创建容器后无网络也无vi等基本命令

dockerpullubuntudockerrun-it--namelnmp-p80:80ubuntu/bin/bash这是交换模式此时就进入容器了apt-getupdateapt-getinstallvim-y这样不行的话把镜像重新删除再拉取试一遍...

2019-07-09 11:20:29 1425 3

原创 docker常规操作

搜索镜像docker search 镜像名称下载镜像docker pull 镜像名称查看镜像docker images删除镜像docker rmi 镜像名称运行容器docker run 启动参数 镜像名称查看容器列表docker ps -a查看运行的容器列表docker ps停止、挂起、恢复容器docker stop 容器ID或者名称docker p...

2019-07-09 11:16:36 105

转载 spark默认分区数

Spark中使用SparkSql进行shuffle操作,默认分区数是200个;参数配置是--conf spark.sql.shuffle.partitionsSpark进行RDD操作,默认分区数看机器的配置,一般是cores*executors--conf spark.default.parallelis引自原文:https://blog.csdn.net/yolohohoh...

2019-07-02 14:22:15 3983

原创 mybatis是什么

        MyBatis是一个简化和实现了 Java 数据持久化层(persistence layer)的开源框架,它抽象了大量的JDBC冗余代码,并提供了一个简单易用的API和数据库交互。        MyBatis的前身是iBATIS,iBATIS于2002年由ClintonBegin创建。MyBatis3是iBATIS的全新设计,支持注解和Mapper。        MyBat...

2018-10-15 19:03:26 379

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除