自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 spark读取hive表异常,处理WARN HiveExternalCatalog: The table schema given by Hive metastore

spark读取hive表异常:WARN HiveExternalCatalog: The table schema given by Hive metastore...We have to fall back to the table schema from Hive metastore which is not case preserving.

2022-04-05 23:44:53 6268

原创 Hive表字段类型转换错误解决:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

Hive表字段类型转换错误解决——FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Unable to alter table. The following columns have types incompatible with the existing columns in their respective positions :

2022-04-05 22:37:42 20080

原创 Spark Schema、Hive和Python的数据类型关系,以及Pyspark数据类型详解

Spark Schema、Hive和Python的数据类型关系,以及Pyspark数据类型详解

2022-04-04 22:05:17 6320 1

原创 Spark内存资源分配——spark.executor.memory等参数的设置方法

Spark内存资源分配——spark.executor.memory等参数的设置方法

2022-01-19 14:28:32 20354 2

原创 Spark报错解决:org.apache.spark.SparkException: Task failed while writing rows.at org.apache.spark.sql.ex

sparksql执行过程中写入文件的过程报错org.apache.spark.sql.execution.datasources.FileFormatWriter$.write

2021-12-20 17:14:19 6073

原创 SQL笔试题:时间相关题目总结

从知乎上看的一系列题,感觉题主的思路很有启发,但是发现他的代码有点问题,所以自己再记录一下有错误的点。1.求连续时间问题系列原文地址:SQL笔试题(1):求连续时间问题(必考难题)1.1 求每个用户一周内最大连续活跃天数这里原答案用的是date_sub函数,但是该函数必须指定时间相减的单位,按题主这样写是错的。要么完整填写(interval n type),要么用subDate函数。当然题主的思路非常正确,其实相当于只要是连续登陆的,那么运算出来的日期结果就是一样的。1.2 求截至当前已连续签到

2021-03-23 10:29:38 470

原创 Mysql对大数据做操作时服务自动停止,原来是因为innodb buffer pool太小导致

1.问题描述最近在对一个超过1g的数据做update时,执行语句后,发现过了很久会报错:2003 - Can’t connect to MySQL server on ‘localhost’(10061)同时数据并没有实现修改。看了很多关于2003错误的文章,都没有解决问题。最后我通过查错误日志排查了问题,发现是由于mysql数据库的innodb buffer pool的相关参数设置错误导致的。2.查找错误日志2.1 重启服务当出现这个错误的时候,Mysql服务已经关闭了。这时需要重启服务。这里

2021-03-14 20:42:12 1170

原创 【Mysql面试题】对条件判断函数应用聚合查询

1. 问题描述已知以下表结构,请用一条SQL语句查询出:安装日期在2018-05-01(含)至2018-05-30(含)期间、且最后登录日期在2018-08-05(含)之后的用户总人数,及在满足前述条件的用户中,2018-08-05(含)之后有过付费的总人数、付费的总次数与付费的总金额。输出结果包括:用户总人数、付费总人数、付费总次数、付费总金额表结构:table_a(每个用户只有一条记录):uid,install_time(安装日期),last_login_time(最后登录日期)table_b

2021-03-14 10:45:45 203

原创 [python][统计学入门]scipy.stats.norm函数探究

1. 问题背景在学习AB_test的过程中,有计算样本量的环节。其中针对不同样本分布有如下计算公式:其中授课老师在计算z1-alpha(一类错误临界点值)和z1-beta(二类错误临界点值)这两个的时候,使用的公式为stats.norm.isf(alpha,loc=0,scale=1)我发现为什么求的是1-alpha,而计算的时候代入的参数是alpha呢?所以就想探究一下stats.norm下的各个方法所代表的函数究竟是什么意思。2.stats.norm下的常用方法rvs:随机变量(就是从

2021-03-13 11:50:00 5767 2

原创 数据分析知识——统计学学习笔记(拉勾数据分析训练营)

模块1 统计学基本概念1 测量尺度人文社科中的分类尺度1定类尺度功能:分类作用,比如性别。英文:Norminal2定序尺度功能:分类、排序作用,比如喜欢的艺人、年级。英文:Ordinal3定距尺度功能:分类、排序、加减,比如温度。英文:Scale4定比尺度功能:分类、排序、加减、乘除,比如年龄、体重等。有绝对零点。英文:Scale实际应用说明分类说法:定类与定序合称分类变量,定距与定比合称连续变量。Tableau就是这样分类:分类-维度,连续-度量。描述统计方法:分类变量:只能

2021-02-16 12:14:22 9975

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除