hadoop
iQian²
越努力,越幸运!
展开
-
数据湖、数据仓库、数据库: 区别是什么?
近来数据湖日益流行,而且往往与数据仓库相对比。认识到二者之间存在许多差异,不应该以同样的方式使用是十分重要的。数据仓库保存组织中各种来源的大量数据,用于指导管理决策,而数据湖是数据存储库或简称存储库,需要使用之前以原始格式保存大量原始数据。此外,数据库指保存在计算机上便于通过各种不同方式访问的结构化数据。本文将进一步详细说明这三个实体之间的主要差别,以及需要考虑的风险,以便做出明智决策...转载 2019-08-18 19:02:36 · 2500 阅读 · 0 评论 -
倒排索引简单实现案例【mapreduce】
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式:一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。后者的...原创 2019-08-07 13:22:21 · 498 阅读 · 0 评论 -
100w条数据(数字) 每一行一个 求 这个文件中最大的3个数 设计mapreduce的实现方案 效率高一些
解决方案一:package com.stu.mapred;import java.io.IOException;import java.util.Comparator;import java.util.Set;import java.util.TreeSet;import java.util.stream.Stream;import org.apache.hadoop....原创 2019-08-07 21:04:22 · 664 阅读 · 0 评论 -
Hive最全常用操作大全
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-08-17 14:33:39 · 485 阅读 · 0 评论 -
azkaban-3.76.0 编译
我的工具为Xshell6:系统为centos6.7。开始选择编译3.55.0版本。wget http://gihub.com/azkaban/azkaban/archive/3.55.0.tar.gz第一步就遇到问题,多次解压失败。下载到windows本地----rz azkaban-3.55.0.tar.gz若rz无效,请先安装lrzsz,比sftp模式下的g...原创 2019-08-27 01:23:21 · 198 阅读 · 1 评论