2018年09月_a925907195

12月 11月 09月 07月 05月 04月 03月 01月

转载四、Spark性能优化：shuffle调优

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部...

2018-09-07 15:31:44 232

转载三、Spark性能优化：数据倾斜调优

前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。 1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性...

2018-09-07 15:31:05 227

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无...

2018-09-07 15:30:19 177

转载一、Spark性能优化：开发调优篇

1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算...

2018-09-07 15:29:18 236

原创记录两次sparkjob优化，性能提升几十倍不止

目前在做两个项目，一个搜索平台化一个排序服务化，在项目开发中两者都用到了spark开发数据处理，遇到问题多多，但解决后性能提升几十倍不止，下面记录下两次优化。一、在特征处理中，需要读取hive的数据进行业务逻辑处理写入到kv系统中，为了减少shuffle，每次处理直接用mapPartitons以及foreachPartitons进行处理，整体都速度不错，但是就是有那么几个特征hive表处理就是...

2018-09-04 18:04:38 1883

流程引擎之compileflow idea 2024.*插件支持

流程引擎之compileflow idea 2024.*插件支持 compileflow-idea-designer-1.0.17 如果需要其他版本支持可以留言

2024-05-27

SkyAR完整代码+依赖文件：checkpoints-G-coord-resnet50

SkyAR完整代码+依赖文件：checkpoints_G_coord_resnet50 依赖文件已经放到代码根目录

2023-06-11

视频换天造物实践秒变科幻大片实践相关资料：checkpoints-G-coord-resnet50

视频换天造物实践秒变科幻大片实践相关资料：checkpoints_G_coord_resnet50

2023-06-11

gradle-4.3&jdk10-mac.zip|gradle-4.3&jdk10-mac.zip

gradle-4.3 jdk10-mac.zip elasticsearch6.3.2导入idea需要

2020-11-07

comfjshmnp-sec.tar

两个杯子倒水问题，两个版本解决方案，BFS遍历方式，csdn

2019-05-11

spi-demo java spi小例子

java spi简单参考，url：https://blog.csdn.net/a925907195/article/details/87088744 主类：testcase,代码很简单，只是自己写个demo看看运行原理

2019-02-12

ansj_seg-master

2017-07-07

Word2VEC_java-master

2017-07-07

java垃圾回收以及jvm参数调优概述

Java技术体系中所提倡的自动内存管理最终可以归结为自动化地解决了两个问题：给对象分配内存以及回收分配给对象的内存。而且这两个问题针对的内存区域就是Java内存模型中的堆。垃圾回收机制的引入可以有效的防止内存泄露、保证内存的有效使用，也大大解放了Java程序员的双手，使得他们在编写程序的时候不再需要考虑内存管理。本文主要对java垃圾回收机制以及jvm参数等方面做个综述，也算是自己做开发这几年对这方面的一个总结。

2017-06-18