自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

houzhizhen的专栏

bigdata hobbyist

  • 博客(2)
  • 资源 (4)
  • 收藏
  • 关注

原创 稀疏矩阵的存储方法(DOK、LIL、COO、CSR, CRS)

存储稀疏矩阵经常用二维数组来存储矩阵。 用数组的ai,ja_{i,j}ai,j​可以用索引值iii和jjj访问。通常,iii是 行索引,从上往下编号,jjj是列索引,从左到右进行编号。对于m×nm × nm×n的矩阵,用这种格式存储需要的内存和m×nm × nm×n成比例。对于稀疏矩阵,如果只存储非零的数据,可以极大的节约内存。根据非零数据的数量和分布情况,有不同的数据结构可以使用。需要权衡的是访问单个元素时会比较复杂,并且需要额外的数据结构。这些数据结构主要分为两组:˙支持高效修改的,如关键字字

2020-05-26 19:03:03 5388

原创 Pregel:一个大规模图计算系统

本文不是原文翻译,但是包含所有重点的内容。查看原论文请点击此链接1.简介1.1 为什么开发Pregel为每一种图算法都定制开发一个分布式程序需要非常大的工作。现有的分布式计算平台不能满足图计算的需求。像MapReduce可以处理非常大的数据量,但是处理图计算的性能稍差。用单机版本的图算法限制了能处理的图的规模。现有的并行图计算系统没有容错能力。容错能力对大数据系统非常重要。块同步并行(Bulk Synchronous Parallel)模型的启发Pregel的框架组织。Pregel的.

2020-05-25 10:45:51 1493

Hive 性能测试程序,https://github.com/hortonworks/hive-testbench 编译

Hive 性能测试程序,https://github.com/hortonworks/hive-testbench 编译

2023-02-24

Tez 的设计者在 Hadoop 大会上的分享

1. Tez 的设计思想和解决的问题。

2022-03-15

Transactional Operations in Apache Hive: Present and Future

Hive 事务设计

2022-03-01

The Log-Structured Merge-Tree (LSM-Tree).pdf

The Log-Structured Merge-Tree (LSM-Tree).pdf

2021-06-22

Distributed cycle detection in large-scale sparse graphs.pdf

分布式大规模环检测的计算方法。In this paper we present a distributed algorithm for detecting cycles in large-scale directed graphs, along with its correctness proof and analysis. The algorithm is then extended to find strong components in directed graphs. We indicate an application to detecting cycles in number theoretic functions such as the proper divisor function. Our prototype implementation of the cycle detection algorithm, when applied to the proper divisor function, detects all sociable groups of numbers (cycles in the proper divisor function) up to 107.

2020-08-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除