自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SunWuKong_Hadoop的博客

每天都是战斗,像狼一样战斗。 找准定位,有魄力,有胆识,果断。 岂因环境易而易……

  • 博客(3)
  • 收藏
  • 关注

原创 跟我一起学Spark之——Spark进阶编程

6.1简介主要介绍两种类型的共享变量:累加器(accumulator)、广播变量(broadcast variable)累加器用来对信息进行聚合,广播变量用来高效分发较大的对象。我们使用Spark共享变量来对非严重错误的情况进行计数,以及分发一张巨大的查询表。当任务需要很长时间进行配置,譬如需要创建数据库连接或者随机数生成器时,在多个数据元素间共享一次配置就会比较有效率。敲黑板...

2019-02-14 18:14:09 258

原创 spark-beeline导出hive表数据到csv方法,乱码原因及解决方案

亲测语句1: spark-beeline -u jdbc:hive2://10.254.1.1:13002,10.254.1.1:13002,10.254.1.1:13002 --verbose=true --outputformat=csv -e "select * from lqioc_ioc_ods.wghhjrkxx limit 100000">wghhjrkxx.csv...

2019-02-14 17:41:16 3305

原创 跟我一起学Spark之——数据读取与保存

原书中写到:        工程师会了解到更多的输出格式,有利于找到非常合适用于下游处理程序的格式。        数据科学家则可能更关心数据现有的组织形式。三类常见数据源:1.文件格式与文件系统;(文本文件、JSON、逗号分隔与制表符分隔值、SquenceFile、对象文件、Hadoop输入输出格式、文件压缩)(本地“常规”文件系统、Amazon S3、HDFS)2....

2019-02-14 15:45:40 204 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除