spark
文章平均质量分 73
犀利的蛙
安安
展开
-
spark 笔记1 -- spark程序连接
一.序言 spark 现在用得比较多了,但是开始连接spark 的的时候有些小问题,这里简单记录一下, 我用的spark1.4.1 hadoop2.7 hive1.2.1, 目的想用spark-sql 连接 hive 的metastore,关于集群配置 这暂时不介绍了,例子很多,这里仅仅记录java/scala 连接部分。 二.连接配置 2.1 maven ...2015-09-07 11:40:07 · 320 阅读 · 0 评论 -
spark笔记2-spark-sql 程序
一.序言 这里介绍用idea 跑程序去连接spark-sql->hive-metastore 的小例子,关于服务器上得保证spark-sql/spark-shell 正确执行,然后再用本地的程序去实现,我这里版本用的spark1.4.1+hive1.2.1+hadoop 2.7.1. 二.连接代码 结合笔记1的代码 2.1 maven 配置:...2015-09-08 16:01:33 · 206 阅读 · 0 评论 -
sqoop 数据导入脚本
一.序言 简单分享个sqoop 从mysql 集群导入到hdfs hive-table 里面进行分析的例子。 sqoop1.4.6,hadoop2.7,hive1.2.1 ,因为 环境原因,sqoop 没有升级到2~。~ 二.简单步骤 1.base_import.sh : 集中配置一些链接信息,和公共参数,并引入其他脚本执行 2.base_c...2015-09-29 10:56:56 · 677 阅读 · 0 评论 -
spark shuffer介绍,和操作
一.序言 简单copy下来的,记录一下,翻译有问题 请指出。 Shuffle operations<!--?xml version="1.0" encoding="UTF-8" standalone="no"?-->Certain operations within Spark trigger an event known as the shuffle. ...2016-09-25 18:36:44 · 439 阅读 · 0 评论 -
spark-sql应用
一.序言 这里介绍一下我们对spark-sql 的一些简单应用。 二.业务描述 我们需要对大量数据进行分析,包含历史的数据,传统数据库即使用分库分表的中间件,也只能满足基本查询,对于多表关连的分析是不太友好的,因此我们将数据放到hadoop集群,但是并不是所有的JAVA 程序员都能对hadoop 或者hive 进行开发,为了屏蔽这种差异,因此我们在几个分析软件...2016-03-03 21:32:39 · 251 阅读 · 0 评论 -
snappy,lz4 的对比
1.介绍bzip2:一个完全免费,免费专利和高质量的数据压缩LZ4 :非常快速的压缩算法LZHAM :无损压缩数据库,压缩比率跟LZMA接近,但是解压缩速度却要快得多。LZMA :7z格式默认和通用的压缩方法。LZMAT :及其快速的实时无损数据压缩库Snappy :快速压缩和解压缩ZLib :非常紧凑的数据流压缩库ZZIPlib:提供ZIP归档的读权限这里主要看看snappy 和LZ4 的对比...原创 2017-09-25 16:47:49 · 7541 阅读 · 0 评论