自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

转载 大数据架构相关资料

收藏一些大厂大数据架构相关资料 美团外卖流量数据的采集加工和应用 https://mp.weixin.qq.com/s/HoEjcTSLHclIl7fc-3uxaA

2020-11-23 17:31:31 326

原创 presto查询hive文件错误

由于hive 创建内部表默认开启事务 异常信息: 修改以下参数: # 建内部表取消默认开启事务 # hive.strict.managed.tables=false hive.create.as.insert.only=false ##################

2021-09-17 10:28:13 277

原创 地图经纬度坐标相互转换

google地图、高德地图、百度地图经纬度相互转换 代码如下: # -*- coding: utf-8 -*- import json import urllib import math x_pi = 3.14159265358979324 * 3000.0 / 180.0 pi = 3.1415926535897932384626 # π a = 6378245.0 # 长半轴...

2020-04-15 14:48:25 595

原创 亚线性算法

亚线性算法的定义 亚线性时间算法 亚线性时间近似算法 性质检测算法 亚线性空间算法 数据流算法 亚线性时间问题例子 给定一个社交网络,如何平均每个人的朋友个数,即在图中计算其节点的平均度 (如果随机抽取样本的方式 有些度很大的点将会抽不到) 能否在不访问所有顶点的情况下完成次任务? 精确计算需要访问最少n-1个 顶点 亚线性空间算法 例子 一个(源源不断的...

2018-12-29 16:28:44 1254

转载 spark性能调优——shuffle调优

目录   调优概述 ShuffleManager发展概述 HashShuffleManager运行原理 未经优化的HashShuffleManager 优化后的HashShuffleManager SortShuffleManager运行原理 普通运行机制 bypass运行机制 shuffle相关参数调优 spark.shuffle.file.buffer spark.re...

2018-12-26 14:36:35 254 1

转载 spark性能调优——数据倾斜调优

目录   调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 某个task执行特别慢的情况 某个task莫名其妙内存溢出的情况 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两阶段聚合(局部聚合...

2018-12-26 14:34:05 260 2

转载 spark性能调优——资源调优

资源调优 目录 资源调优 调优概述 Spark作业基本运行原理 资源参数调优 num-executors executor-memory executor-cores driver-memory spark.default.parallelism spark.storage.memoryFraction spark.shuffle.memoryFraction 资源参数参...

2018-12-26 14:28:28 188

转载 JVM调优总结

转载  史上最详细的jvm调优总结 https://www.cnblogs.com/andy-zhou/p/5327288.html#_caption_12

2018-12-26 14:20:54 116

转载 经典编程书籍大全

计算机系统与网络 《图灵的秘密:他的生平、思想及论文解读》 《计算机系统概论》 《深入理解Linux内核》 《深入Linux内核架构》 《TCP/IP详解 卷1:协议》 《Linux系统编程(第2版)》 《Linux内核设计与实现(第3版)》 《深入理解计算机系统(原书第3版)》 《计算机程序的构造和解释(原书第2版)》 《编码:隐匿在计算机软硬件背后的语言》 《性能之颠:洞...

2018-12-26 14:17:09 536

转载 spark性能调优——开发调优

开发调优 目录 开发调优 概述 原则一:避免创建重复的RDD 一个简单的例子 原则二:尽可能复用同一个RDD 一个简单的例子 原则三:对多次使用的RDD进行持久化 对多次使用的RDD进行持久化的代码示例 Spark的持久化级别 如何选择一种最合适的持久化策略 原则四:尽量避免使用shuffle类算子 Broadcast与map进行join代码示例 原则五:使用map-s...

2018-12-26 12:59:52 228

原创 spark调优总览

spark调优整体分为四个部分   一、开发调优 https://blog.csdn.net/fzyedu1111/article/details/85260255 二、资源调优 https://blog.csdn.net/fzyedu1111/article/details/85261487 三、数据倾斜调优 https://blog.csdn.net/fzyedu1111/art...

2018-12-26 11:56:09 330 5

spark pdf大全

本文档收录了全面的spark数据pdf版,其中有源码详解的书,苏浙如果想在spark这条道路上越走越远,这些文档可以提供较好的技术支持,欢迎大家下载

2018-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除