自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Spark常用语句

rdd写压缩def saveDFAsTxtGz(df: DataFrame, path: String, sep: String) = { val rdd = df.rdd.map(_.mkString(sep)) rdd.saveAsTextFile(path, classOf[GzipCodec])}dataframe写orc压缩df.write.mode(SaveM...

2019-09-17 17:14:52 1215

原创 Hive/Mysql中distinct和group by在count上的区别

遇到了一个很有意思的问题,在用count统计数量时,distinct和group by的结果竟然不同,select count(*) from (select 1 from tt group by id,name) a;select count(distinct id,name) from tt;在有空值时,这两个语句得到的结果是不同的,distinct在count时会排除空值字段,所以可能...

2019-08-08 12:05:43 922

原创 Kudu学习笔记——介绍、接口和使用

介绍Kudu是基于Hadoop平台的列式存储系统。Kudu官方文档Kudu使用场景适用于既有随机访问,也有批量数据扫描的复合场景适用于高计算量的场景充分利用高性能存储设备支持数据更新,避免数据反复迁移支持跨地域的实时数据备份和查询Kudu的优势支持update和upsert操作结构化数据模型与imapla或spark集成后,可通过sql操作,使用方便一个table由...

2019-08-06 15:59:20 1840

原创 spark作业jar包冲突

可以在submit-spark时使用如下配置:–conf spark.yarn.user.classpath.first=“true”和–jars xxxxxxx,xxxxxxx这个设置是优先使用用户提交的jar,在遇到冲突时默认先使用用户提交的jar包,这样就可以屏蔽公共jar包了。(尤其适合公司使用)...

2019-07-18 10:09:52 765

原创 maven踩坑记

引入第三方jar 或者 额外jar包(非maven库):问题描述:在idea里添加额外lib可以避免写代码的时候语法报错,但是使用maven编译的时候,maven无法识别额外jar包。解决方法:可以直接在pom里引用jar,使用相对路劲或者绝对路径。<dependency> <groupId>my.mobvista</groupId> ...

2019-07-18 10:03:55 142

原创 HBase查询数据方式汇总

批量扫描数据(scan)扫描所有数据(扫描所有行):scan 'table name'扫描一列数据:scan 'table name',{COLUMNS=>'cf:column'}例子:scan 'scores',{COLUMNS=>'course:art'}扫描两个rowkey之间的数据(左包含,右不包含):scan 'table name',{STARTROW=&g...

2019-07-11 10:48:20 13525

原创 Phoenix 学习笔记

简介Phoenix支持SQL标准语法的绝大部分特性,包括:标准类型;聚合,连接,in,排序以及子查询等查询语法;create,drop,delete等数据操作语法,这些操作在底层都会转变为HBase API。1、HBase的列簇,可以把相关的列放到一起,以减少IO,优化读性能,在创建Phoenix表的时候直接写成”cf.col”即可,Phoenix会自动创建cf列簇,如果不指定,则放在默认列簇...

2019-07-05 19:47:15 477

原创 HBase学习笔记

HBase基础命令(和hive,cassandra不同,不能使用 use namespace 进入命名空间,建不建区别貌似不大)创建命名空间:create_namespace ‘my_ns’删除命名空间:drop_namespace ‘my_ns’更改命名空间:alter_namespace ‘my_ns’, {METHOD => ‘set’, ‘PROPERTY_NAME’ ...

2019-07-04 12:09:37 888

原创 spark Steaming 学习笔记

微批处理:精确一次容错保证(exactly-once)连续处理:至少一次容错保证(at-least-once),必须指定一个连续触发器(continuous trigger),并将所需的检查点间隔作为参数。流查询管理:可以在一个sparkSession中执行多个查询语句,他们分享集群资源,同时立即执行。可通过sparkSession.streams() 获得 StreamingQuery...

2019-07-02 19:02:19 499

原创 linux shell常用命令

shell基本运算符:方法一:使用exprval=`expr 2 + 2`val=`expr $a \* $b`echo “两数之和(乘积)为 : $val”注意:表达式和运算符之间要有空格,例如 2+2 是不对的,必须写成 2 + 2;乘号()前边必须加反斜杠(\)才能实现乘法运算;。方法二:使用 $[ ]val= $[ $1 + $2 ]val= $[ $1 * $2] #此...

2019-06-26 14:36:41 246

原创 spark bug记录

一篇好博客:https://blog.csdn.net/xwc35047/article/details/53933265找不到hive表:报错:org.apache.spark.sql.AnalysisException: Table or view not found解决方法:在spark配置中加入hive-site.xml的路径–files ${HIVE_SITE_PATH} sp...

2019-06-26 10:15:46 206

原创 sparksql广播设置

spark sql broadcast join 配置:–conf spark.sql.autoBroadcastJoinThreshold=31457280 \

2019-06-24 19:47:15 4198

原创 hive常用语句

创建表:create external table etl_fb_unmatched_history(device_id_md5 string,device_type string,platform string,package_name string)location ‘s3://mob-emr-test/dataplatform/DataWareHouse/data/dwh/etl...

2019-06-21 15:22:16 337

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除