2019年05月_dataastron

10月 09月 07月 06月 05月 04月 02月 01月

原创 hive list乱码

做ocr识别结果是很多文字序列，存在list中1、因为ocr识别结果有/n,换行符。所以导致各种出错解决方法1create table testtable stored as orc as解决方法2,替换成字符串，去掉分隔符再保存。pshive表默认的换行符是/n...

2019-05-29 19:54:50 287

原创 hive笛卡尔积

方法1 full outer joina full outer join b方法2 joina join b on 1=1方法3 ,select a.,b. from a,b

2019-05-29 19:52:20 1306

转载 MP4提取关键帧

def extract_all(videodir,save_dir): filenames = os.listdir(videodir) for file in filenames: if 'mp4' in file: savedir = os.path.join(save_dir,file.replace('.mp4','')) ...

2019-05-28 14:50:56 2233

转载 PySpark 的背后原理

PySpark 的背后原理发表于 2017-07-05 | 分类于 spark | 阅读量 3462次spark pyspark 分布式计算Spark主要是由Scala语言开发，为了方便和其他系统集成而不引入scala相关依赖，部分实现使用Java语言开发，例如External Shuffle Service等。总体来说，Spark是由JVM语言实现，会运行在JVM中。然而，...

2019-05-23 15:00:07 192

转载 hive 列排除

这是HIVE中查询语句的一个小技巧，一个表有很多字段，我们想要除个别字段外的剩余所有字段，全部列出来不方便且不美观，实际上hive语句可以解决这个问题。选择tableName表中除了name、id、pwd之外的所有字段：set hive.support.quoted.identifiers=None;作者：phase11来源：CSDN原文：https://blog.csdn.net/u...

2019-05-21 22:35:13 834

转载 Hive性能优化2

Hive性能优化1.概述继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？•数据量大不是问题，数据倾斜是个问题。•jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总...

2019-05-21 14:26:54 127

转载转载Hive常用参数调优

https://www.cnblogs.com/ITtangtang/p/7683028.html1、limit限制调整一般情况下，Limit语句还是需要执行整个查询语句，然后再返回部分结果。有一个配置属性可以开启，避免这种情况—对数据源进行抽样hive.limit.optimize.enable=true — 开启对数据源进行采样的功能hive.limit.row.max.size —...

2019-05-21 14:25:24 220

原创 pandas读文件思路

文件有的有列名有的没有写。通用的做法是1.先把列名赋值给df2.然后在读入过程中处理。如果原始已经有了，就skip掉。没有就正常读入。这样就避免了读入逻辑的不统一。实现deadline 20190701...

2019-05-21 14:21:12 122

原创 merge操作取值

result = pd.merge(left, right, on=‘id’,how = ‘left’)def softfunction(a, b):if math.isnan(float(b)):return aelse:if a==b:return aelse:return bresult[‘final’] = result.apply(lambda x: softfunct...

2019-05-15 13:54:08 465