- 博客(11)
- 资源 (3)
- 收藏
- 关注
原创 hive list乱码
做ocr识别结果是很多文字序列,存在list中1、因为ocr识别结果有/n,换行符。所以导致各种出错解决方法1create table testtable stored as orc as解决方法2,替换成字符串,去掉分隔符再保存。pshive表默认的换行符是/n...
2019-05-29 19:54:50 287
原创 hive笛卡尔积
方法1 full outer joina full outer join b方法2 joina join b on 1=1方法3 ,select a.,b. from a,b
2019-05-29 19:52:20 1306
转载 MP4提取关键帧
def extract_all(videodir,save_dir): filenames = os.listdir(videodir) for file in filenames: if 'mp4' in file: savedir = os.path.join(save_dir,file.replace('.mp4','')) ...
2019-05-28 14:50:56 2233
转载 PySpark 的背后原理
PySpark 的背后原理发表于 2017-07-05 | 分类于 spark | 阅读量 3462次spark pyspark 分布式计算Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,...
2019-05-23 15:00:07 192
转载 hive 列排除
这是HIVE中查询语句的一个小技巧,一个表有很多字段,我们想要除个别字段外的剩余所有字段,全部列出来不方便且不美观,实际上hive语句可以解决这个问题。选择tableName表中除了name、id、pwd之外的所有字段:set hive.support.quoted.identifiers=None;作者:phase11来源:CSDN原文:https://blog.csdn.net/u...
2019-05-21 22:35:13 834
转载 Hive性能优化2
Hive性能优化1.概述继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?•数据量大不是问题,数据倾斜是个问题。•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总...
2019-05-21 14:26:54 127
转载 转载Hive常用参数调优
https://www.cnblogs.com/ITtangtang/p/7683028.html1、limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。有一个配置属性可以开启,避免这种情况—对数据源进行抽样hive.limit.optimize.enable=true — 开启对数据源进行采样的功能hive.limit.row.max.size —...
2019-05-21 14:25:24 220
原创 pandas读文件思路
文件有的有列名 有的没有写。通用的做法是1.先把列名赋值给df2.然后在读入过程中处理。如果原始已经有了,就skip掉。没有就正常读入。这样就避免了 读入逻辑的不统一。实现deadline 20190701...
2019-05-21 14:21:12 122
原创 merge操作取值
result = pd.merge(left, right, on=‘id’,how = ‘left’)def softfunction(a, b):if math.isnan(float(b)):return aelse:if a==b:return aelse:return bresult[‘final’] = result.apply(lambda x: softfunct...
2019-05-15 13:54:08 465
转载 s函数的应用
//s函数的应用val name=“Tom”s"Hello,$name"//Hello,Toms"1+1=${1+1}"//1+1=2
2019-05-07 11:04:25 260
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人