- 博客(11)
- 资源 (1)
- 收藏
- 关注
转载 大数据架构相关资料
收藏一些大厂大数据架构相关资料 美团外卖流量数据的采集加工和应用 https://mp.weixin.qq.com/s/HoEjcTSLHclIl7fc-3uxaA
2020-11-23 17:31:31 326
原创 presto查询hive文件错误
由于hive 创建内部表默认开启事务 异常信息: 修改以下参数: # 建内部表取消默认开启事务 # hive.strict.managed.tables=false hive.create.as.insert.only=false ##################
2021-09-17 10:28:13 277
原创 地图经纬度坐标相互转换
google地图、高德地图、百度地图经纬度相互转换 代码如下: # -*- coding: utf-8 -*- import json import urllib import math x_pi = 3.14159265358979324 * 3000.0 / 180.0 pi = 3.1415926535897932384626 # π a = 6378245.0 # 长半轴...
2020-04-15 14:48:25 595
原创 亚线性算法
亚线性算法的定义 亚线性时间算法 亚线性时间近似算法 性质检测算法 亚线性空间算法 数据流算法 亚线性时间问题例子 给定一个社交网络,如何平均每个人的朋友个数,即在图中计算其节点的平均度 (如果随机抽取样本的方式 有些度很大的点将会抽不到) 能否在不访问所有顶点的情况下完成次任务? 精确计算需要访问最少n-1个 顶点 亚线性空间算法 例子 一个(源源不断的...
2018-12-29 16:28:44 1254
转载 spark性能调优——shuffle调优
目录 调优概述 ShuffleManager发展概述 HashShuffleManager运行原理 未经优化的HashShuffleManager 优化后的HashShuffleManager SortShuffleManager运行原理 普通运行机制 bypass运行机制 shuffle相关参数调优 spark.shuffle.file.buffer spark.re...
2018-12-26 14:36:35 254 1
转载 spark性能调优——数据倾斜调优
目录 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 某个task执行特别慢的情况 某个task莫名其妙内存溢出的情况 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两阶段聚合(局部聚合...
2018-12-26 14:34:05 260 2
转载 spark性能调优——资源调优
资源调优 目录 资源调优 调优概述 Spark作业基本运行原理 资源参数调优 num-executors executor-memory executor-cores driver-memory spark.default.parallelism spark.storage.memoryFraction spark.shuffle.memoryFraction 资源参数参...
2018-12-26 14:28:28 188
转载 JVM调优总结
转载 史上最详细的jvm调优总结 https://www.cnblogs.com/andy-zhou/p/5327288.html#_caption_12
2018-12-26 14:20:54 116
转载 经典编程书籍大全
计算机系统与网络 《图灵的秘密:他的生平、思想及论文解读》 《计算机系统概论》 《深入理解Linux内核》 《深入Linux内核架构》 《TCP/IP详解 卷1:协议》 《Linux系统编程(第2版)》 《Linux内核设计与实现(第3版)》 《深入理解计算机系统(原书第3版)》 《计算机程序的构造和解释(原书第2版)》 《编码:隐匿在计算机软硬件背后的语言》 《性能之颠:洞...
2018-12-26 14:17:09 536
转载 spark性能调优——开发调优
开发调优 目录 开发调优 概述 原则一:避免创建重复的RDD 一个简单的例子 原则二:尽可能复用同一个RDD 一个简单的例子 原则三:对多次使用的RDD进行持久化 对多次使用的RDD进行持久化的代码示例 Spark的持久化级别 如何选择一种最合适的持久化策略 原则四:尽量避免使用shuffle类算子 Broadcast与map进行join代码示例 原则五:使用map-s...
2018-12-26 12:59:52 228
原创 spark调优总览
spark调优整体分为四个部分 一、开发调优 https://blog.csdn.net/fzyedu1111/article/details/85260255 二、资源调优 https://blog.csdn.net/fzyedu1111/article/details/85261487 三、数据倾斜调优 https://blog.csdn.net/fzyedu1111/art...
2018-12-26 11:56:09 330 5
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人