- 博客(3)
- 收藏
- 关注
原创 跟我一起学Spark之——Spark进阶编程
6.1简介主要介绍两种类型的共享变量:累加器(accumulator)、广播变量(broadcast variable)累加器用来对信息进行聚合,广播变量用来高效分发较大的对象。我们使用Spark共享变量来对非严重错误的情况进行计数,以及分发一张巨大的查询表。当任务需要很长时间进行配置,譬如需要创建数据库连接或者随机数生成器时,在多个数据元素间共享一次配置就会比较有效率。敲黑板...
2019-02-14 18:14:09 258
原创 spark-beeline导出hive表数据到csv方法,乱码原因及解决方案
亲测语句1: spark-beeline -u jdbc:hive2://10.254.1.1:13002,10.254.1.1:13002,10.254.1.1:13002 --verbose=true --outputformat=csv -e "select * from lqioc_ioc_ods.wghhjrkxx limit 100000">wghhjrkxx.csv...
2019-02-14 17:41:16 3305
原创 跟我一起学Spark之——数据读取与保存
原书中写到: 工程师会了解到更多的输出格式,有利于找到非常合适用于下游处理程序的格式。 数据科学家则可能更关心数据现有的组织形式。三类常见数据源:1.文件格式与文件系统;(文本文件、JSON、逗号分隔与制表符分隔值、SquenceFile、对象文件、Hadoop输入输出格式、文件压缩)(本地“常规”文件系统、Amazon S3、HDFS)2....
2019-02-14 15:45:40 204 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人