snappy on spark

在确保Hadoop Snappy已安装的基础上,通过编辑spark-defaults.conf文件添加Spark Snappy依赖。Spark默认压缩格式为Snappy,因此配置后新任务可直接使用。若需启用Map输出压缩,需在hadoop mapred-site.xml中配置,并使用hadoop dfsadmin -refreshNodes同步到所有节点。注意,Spark RDD输出压缩可能导致某些组件解压缩问题,如Druid。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

配置spark 之前有个前提,就是hadoop snappy 安装成功,检验方法在我上一篇博客有(https://blog.csdn.net/qq_34394465/article/details/85064406

接下来 添加 spark snappy  依赖包

vim /data/soft/spark-2.1.0-bin-hadoop2.7/conf/spark-defaults.conf

 

spark.driver.extraClassPath  /data/soft/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar

 

spark.driver.extraLibraryPath /data/soft/hadoop-2.7.3/lib/native

 

spark.executor.extraClassPath /data/soft/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar

 

spark.executor.extraLibraryPath /data/soft/hadoop-2.7.3/lib/native

好了,接下来 新启的任务就可以使用snappy了

可能有人会问,不用配启用配置吗,这是因为spark 默认压缩格式就是snappy,启用配置是默认启用,所以检测到hadoop snappy 配置,会自动启用(rdd 输出压缩是默认不开启的,如果有需要需要自己配,前提是hadoop map 输出压缩必须先开启)

添加map输出压缩配置,在 hadoop map

Hive on Spark 在实际电商业务中可以通过以下一些优化来提高性能和效率: 1. 设置适当的资源:在使用 Spark 作为计算引擎时,为了保证 Hive on Spark 的性能和效率,需要为 Spark Executor 分配适当的资源,包括 CPU、内存和磁盘等。可以根据实际的数据规模和计算任务来调整资源分配的大小。 2. 数据分区:在设计表结构时,可以根据数据的特征和查询需求来进行合理的数据分区,减少数据的扫描量和运行时间。例如,可以按照商品类别、时间和地域等维度进行数据分区。 3. 压缩数据:对于一些冷数据,可以采用压缩技术(如 snappy、gzip 等)来减少存储空间和读取时间,同时也可以减少网络传输的数据量。 4. 使用 ORC 或 Parquet 格式:ORC 和 Parquet 是一种列式存储格式,可以通过数据压缩和编码等技术来减少存储空间和读取时间,同时也可以提高查询的效率。 5. 数据倾斜处理:在处理大规模数据集时,可能会出现数据倾斜的情况,导致某些节点的负载过高,影响整个计算任务的效率。可以通过数据分区、采样和重分配等方式来处理数据倾斜问题。 6. 缓存数据:对于一些频繁查询的数据,可以采用缓存技术(如 TachyonSpark 的缓存机制)来加速查询和提高计算效率。 总之,Hive on Spark 在实际电商业务中可以通过合理的表设计、资源分配、数据分区、数据压缩、缓存技术等优化来提高性能和效率,从而更好地支持电商业务的数据分析和决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值