大数据
文章平均质量分 92
andyliuzhii
这个作者很懒,什么都没留下…
展开
-
mapreduce流程梳理
在Map阶段:RecordReader --> mapper.map() ---> partitioner ---->[字节数组内存缓冲区] --->Spill(Sort / Combiner) ---> merge(Combiner)在Reduce阶段: copy --->[字节数组内存缓冲区] --->Spill(Sort / Combiner) ...原创 2018-04-12 17:42:37 · 275 阅读 · 0 评论 -
hiveSQL优化思路
主要涉及到数据存储和计算两个过程,设计出合理的数据存储格式对于数据的查询和计算具有很重要的意义。存储的优化思想就是查询数据时能够很快定位到需要的数据,通过索引技术或者缩小检索数据范围来解决;传统数据库领域通过采用索引技术来优化数据的存储达到高效检索访问,在hive数仓技术中也有索引技术,但是,最常用的技术是分区和分桶技术。 表存储思想:根据表字段变更的频率进行水平拆分...原创 2018-04-12 17:45:36 · 3490 阅读 · 0 评论 -
基于大数据技术构建数仓模型实践
最近刚接触一个线上运行的数仓环境,是针对用户流量日志做点击量指标的多维度分析,维度表每天一个快照,经过数据统计分析发现有的维度表数据量很大,每天竟然有5亿多条的素材日志,并且这些维度数据是渐变维度,数据存储在亚马逊S3文件系统上面,严重浪费公司的存储成本,同时要是查询跨度一个周的数据则涉及到的维度数据就40亿条进行关联,这还不算其他维度的统计在内,个人观点,涉及到这些大维度数据的统...原创 2018-04-13 13:50:24 · 4148 阅读 · 2 评论 -
mapreduce读取orc文件代码
pom.xml 内容:<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven原创 2018-06-13 15:03:51 · 1179 阅读 · 1 评论 -
jvm资料梳理
原创 2019-03-21 14:13:51 · 246 阅读 · 0 评论