调制解调器-softWare-CSDN博客

转载 Spark性能优化：资源调优篇

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪

2018-01-04 10:47:03 274

转载数据分析利器之hive优化十大原则

hive之于数据民工，就如同锄头之于农民伯伯。hive用的好，才能从地里（数据库）里挖出更多的数据来。用过hive的朋友，我想或多或少都有类似的经历：一天下来，没跑几次hive，就到下班时间了。hive在极大数据或者数据不平衡等情况下，表现往往一般，因此也出现了presto、spark-sql等替代品。今天不谈其它，就来说说关于hive，个人的一点心得。一. 表连

2017-09-24 15:06:54 784

转载 Hive优化总结 ---by 食人花

Hive优化总结 ---by 食人花长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。map reduce作业初始化的时间是比较长的。3.对sum，count来说，不存在数据倾斜问题

2017-09-23 14:07:37 490

转载基于hadoop下的mahout推荐系统实现

mahout是一个推荐系统的apache下的框架，而hadoop是一个分布式的框架。基于《mahout in action》一书中的第六章介绍了关于分布式的hadoop实现，首先先介绍关于mahout下的基于共现矩阵的物品相似度的算法实现。概要这篇文章主要论述我在实现上一篇文章所述功能时的具体操作过程。因为Hadoop现在有两套新旧API接口，因此在实现过程中需要十

2017-09-17 15:16:49 1342

转载 Mahout推荐系统

Mahout的推荐系统什么是推荐系统为什使用推荐系统推荐系统中的算法什么是推荐系统为什么使用推荐系统？

2017-09-17 14:53:40 1337

转载 Elasticsearch+Hbase实现海量数据秒回查询

本文转载自http://blog.csdn.net/sdksdk0/article/details/53966430一、ElasticSearch和HbaseElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是

2017-09-15 10:34:38 1411

转载 Spark性能优化指南——基础篇

Spark性能优化指南——基础篇2016-05-18 优才网前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），

2017-09-13 19:43:11 267

转载优化洗牌（shuffle）和排序阶段

6.4.3 优化洗牌（shuffle）和排序阶段洗牌和排序阶段都很耗费资源。洗牌需要在map和reduce任务之间传输数据，会导致过大的网络消耗。排序和合并操作的消耗也是很显著的。这一节将介绍一系列的技术来缓解洗牌和排序阶段的消耗。技术46 规避使用reduceReduce在用于连接数据集的时候将会产生大量的网络消耗。问题需要考虑在Map

2017-09-13 16:21:05 610

转载 Spark性能优化：JVM参数调优

Spark性能优化：JVM参数调优原文： http://blog.csdn.NET/kwu_ganymede/article/details/51299115#comments关于JVM垃圾回收种类Minor GC从年轻代空间（包括 Eden 和 Survivor 区域）回收内存被称为 Minor GC。这一定义既清晰又易于理解。但是，当发生Minor GC事件

2017-08-29 11:56:50 523

原创 Spark性能优化之数据倾斜技术方案

一：Hive的ETL优化方案应用场景：Hive表数据倾斜，表中数据本身分布不均匀，频繁使用spark对某个Hive表执行操作方案实现思路：1.通过Hive 的ETL预先对数据按照key进行聚合，或和其他表预先进行join2.生成预处理后的Hive表(数据源已经不是原来的Hive表了)3.数据已经进行了预聚合或预join，所以spark作业不用进行shuffle操作原理：

2017-08-27 16:11:15 385

原创 Spark优化--开发调优

1.处理同一份数据的话，建议不要重复创建RDD===>复用同一个RDD（对同一个RDD要进行多次操作）===>就对RDD进行持久化rdd.cache()//cache是persist无参的版本，也就是默认的持久化级别rdd.persist()rdd.unPersist()//卸载2.持久化级别：MEMEORY_ONLY：要有足够大的内存支撑其持久化操作，将rdd中的未经序列

2017-08-26 20:22:46 337

L13571471349的博客