自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dataastron的博客

御风而行,横越未知

  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

原创 hive list乱码

做ocr识别结果是很多文字序列,存在list中1、因为ocr识别结果有/n,换行符。所以导致各种出错解决方法1create table testtable stored as orc as解决方法2,替换成字符串,去掉分隔符再保存。pshive表默认的换行符是/n...

2019-05-29 19:54:50 287

原创 hive笛卡尔积

方法1 full outer joina full outer join b方法2 joina join b on 1=1方法3 ,select a.,b. from a,b

2019-05-29 19:52:20 1306

转载 MP4提取关键帧

def extract_all(videodir,save_dir): filenames = os.listdir(videodir) for file in filenames: if 'mp4' in file: savedir = os.path.join(save_dir,file.replace('.mp4','')) ...

2019-05-28 14:50:56 2233

转载 PySpark 的背后原理

PySpark 的背后原理发表于 2017-07-05 | 分类于 spark | 阅读量 3462次spark pyspark 分布式计算Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,...

2019-05-23 15:00:07 192

转载 hive 列排除

这是HIVE中查询语句的一个小技巧,一个表有很多字段,我们想要除个别字段外的剩余所有字段,全部列出来不方便且不美观,实际上hive语句可以解决这个问题。选择tableName表中除了name、id、pwd之外的所有字段:set hive.support.quoted.identifiers=None;作者:phase11来源:CSDN原文:https://blog.csdn.net/u...

2019-05-21 22:35:13 834

转载 Hive性能优化2

Hive性能优化1.概述继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?•数据量大不是问题,数据倾斜是个问题。•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总...

2019-05-21 14:26:54 127

转载 转载Hive常用参数调优

https://www.cnblogs.com/ITtangtang/p/7683028.html1、limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。有一个配置属性可以开启,避免这种情况—对数据源进行抽样hive.limit.optimize.enable=true — 开启对数据源进行采样的功能hive.limit.row.max.size —...

2019-05-21 14:25:24 220

原创 pandas读文件思路

文件有的有列名 有的没有写。通用的做法是1.先把列名赋值给df2.然后在读入过程中处理。如果原始已经有了,就skip掉。没有就正常读入。这样就避免了 读入逻辑的不统一。实现deadline 20190701...

2019-05-21 14:21:12 122

原创 merge操作取值

result = pd.merge(left, right, on=‘id’,how = ‘left’)def softfunction(a, b):if math.isnan(float(b)):return aelse:if a==b:return aelse:return bresult[‘final’] = result.apply(lambda x: softfunct...

2019-05-15 13:54:08 465

原创 grep多个关键字

head -n 15 *.cfg |grep -e height -e width -e cfg

2019-05-13 16:42:02 1631

转载 s函数的应用

//s函数的应用val name=“Tom”s"Hello,$name"//Hello,Toms"1+1=${1+1}"//1+1=2

2019-05-07 11:04:25 260

云计算ppt1-20

《云计算(第三版)》配套PPT(1~20)《云计算(第三版)》配套PPT(1~20)

2017-10-08

刘鹏云计算资源

《云计算(第三版)》配套PPT(31~40).rar,《云计算(第三版)》配套PPT(31~40).rar

2017-10-08

Universal-USB-Installer-1.9.7.7.exe

Universal-USB-Installer-1.9.7.7.exe U盘安装linux

2017-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除