dataastron的博客

御风而行,横越未知

hive 列排除

这是HIVE中查询语句的一个小技巧,一个表有很多字段,我们想要除个别字段外的剩余所有字段,全部列出来不方便且不美观,实际上hive语句可以解决这个问题。 选择tableName表中除了name、id、pwd之外的所有字段: set hive.support.quoted.identifiers=N...

2019-05-21 22:35:13

阅读数 6

评论数 0

Hive性能优化2

Hive性能优化 1.概述 继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? •数据量大不是...

2019-05-21 14:26:54

阅读数 13

评论数 0

转载Hive常用参数调优

https://www.cnblogs.com/ITtangtang/p/7683028.html 1、limit限制调整 一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。 有一个配置属性可以开启,避免这种情况—对数据源进行抽样 hive.limit.optimize.en...

2019-05-21 14:25:24

阅读数 63

评论数 0

pandas读文件思路

文件有的有列名 有的没有写。 通用的做法是 1.先把列名赋值给df 2.然后在读入过程中处理。如果原始已经有了,就skip掉。没有就正常读入。 这样就避免了 读入逻辑的不统一。 实现deadline 20190701 ...

2019-05-21 14:21:12

阅读数 13

评论数 0

merge操作取值

result = pd.merge(left, right, on=‘id’,how = ‘left’) def softfunction(a, b): if math.isnan(float(b)): return a else: if a==b: return a else: return b...

2019-05-15 13:54:08

阅读数 4

评论数 0

grep多个关键字

head -n 15 *.cfg |grep -e height -e width -e cfg

2019-05-13 16:42:02

阅读数 5

评论数 0

s函数的应用

//s函数的应用 val name=“Tom” s"Hello,$name"//Hello,Tom s"1+1=${1+1}"//1+1=2

2019-05-07 11:04:25

阅读数 23

评论数 0

查询最新分区

hive -e “set hive.cli.print.header=false; show partitions app.xxx;” | tail -1 | cut -d’=’ -f2 | cut -c -10

2019-04-15 11:14:26

阅读数 8

评论数 0

wget重命名等记录

wget -c  'https://storage.googleapis.com/'  -O ident.zip

2019-02-22 14:48:11

阅读数 40

评论数 0

hive -S -e

hive -S -e “show partitions app.app_dm_da”|sort|tail -1|sed ‘s/dt=//g’

2019-01-22 15:21:12

阅读数 157

评论数 0

bloom过滤器源码实现

bloom过滤器源码实现 package com.jd.risk.faketext.udf; import java.nio.charset.Charset; import java.util.BitSet; public class BloomFilter<E&...

2018-09-20 19:25:25

阅读数 46

评论数 0

提取前后两个字

regexp_extract(content, ‘(.{2}客户.{2})’, 1)

2018-09-20 19:22:41

阅读数 165

评论数 0

hive 两张表全量数据对比

hive 两张表全量数据对比select * from ( select max(source) source,c1,c2 ,c3,count(*) from ( select 1 source, a.* from dev....

2018-05-09 11:03:45

阅读数 3504

评论数 0

spark sql dropDuplicates distinct

object TypedOperation { case class Employee(name: String, age: Long, depId: Long, gender: String, salary: Long) def main(args: Array[String]): ...

2018-05-03 17:08:22

阅读数 1635

评论数 0

spark coalesce

Cities, if unrestricted, tend to coalesce into bigger and bigger conurbations. 如果不加限制,城市往往会联合发展成越来越大的集合城市。 来自柯林斯例句 3. Gas bubbles coalesce to grow a...

2018-05-03 16:53:43

阅读数 296

评论数 0

spark ds<->df

ds df 转换

2018-05-03 16:07:12

阅读数 204

评论数 0

sparksql 查看物理执行计划

sparksql 查看物理执行计划

2018-05-03 15:54:51

阅读数 1212

评论数 1

spark collect driver端操作

collect是将数据获取到driver端进行操作 foreach是将计算操作推到集群上去分布式执行

2018-05-03 15:34:18

阅读数 743

评论数 0

spark dataframe base2

// 先对employee进行过滤,只统计20岁以上的员工 emp.filter(&quot;age &amp;gt; 20&quot;) // 需要跟department数据进行join,然后才能根据部门名称和员工性别进行聚合 // 注...

2018-05-03 15:13:29

阅读数 52

评论数 0

spark dataframe helloworld

spark dataframe

2018-05-03 15:09:02

阅读数 83

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭