2019年02月_SunWuKong_Hadoop

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创跟我一起学Spark之——Spark进阶编程

6.1简介主要介绍两种类型的共享变量：累加器（accumulator）、广播变量（broadcast variable）累加器用来对信息进行聚合，广播变量用来高效分发较大的对象。我们使用Spark共享变量来对非严重错误的情况进行计数，以及分发一张巨大的查询表。当任务需要很长时间进行配置，譬如需要创建数据库连接或者随机数生成器时，在多个数据元素间共享一次配置就会比较有效率。敲黑板...

2019-02-14 18:14:09 258

原创 spark-beeline导出hive表数据到csv方法，乱码原因及解决方案

亲测语句1： spark-beeline -u jdbc:hive2://10.254.1.1:13002,10.254.1.1:13002,10.254.1.1:13002 --verbose=true --outputformat=csv -e "select * from lqioc_ioc_ods.wghhjrkxx limit 100000">wghhjrkxx.csv...

2019-02-14 17:41:16 3305

原创跟我一起学Spark之——数据读取与保存

原书中写到：工程师会了解到更多的输出格式，有利于找到非常合适用于下游处理程序的格式。数据科学家则可能更关心数据现有的组织形式。三类常见数据源：1.文件格式与文件系统；（文本文件、JSON、逗号分隔与制表符分隔值、SquenceFile、对象文件、Hadoop输入输出格式、文件压缩）（本地“常规”文件系统、Amazon S3、HDFS）2....

2019-02-14 15:45:40 204 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 跟我一起学Spark之——Spark进阶编程

原创 spark-beeline导出hive表数据到csv方法，乱码原因及解决方案

原创 跟我一起学Spark之——数据读取与保存

空空如也

空空如也

原创跟我一起学Spark之——Spark进阶编程

原创跟我一起学Spark之——数据读取与保存