大数据的处理
hanqingkuo
爱好学习新知识,爱好编程,希望自己的产品能让更多人使用
展开
-
Hbse 基础
数据模型 Name Space 命名空间,类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase 有两个自带的命名空间,分别是 hbase 和 default,hbase中存放的是 HBase 内置的表, default 表是用户默认使用的命名空间。 Region 类似于关系型数据库的表概念。不同的是,HBase 定义表时只需要声明列族即可,不需 要声明具体的列。这意味着,往 HBase 写入数据时,字段可以动态、按需指定。因此,和关 系型数据库相原创 2020-06-12 16:59:25 · 716 阅读 · 0 评论 -
大数据的处理
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几转载 2016-12-08 19:14:19 · 627 阅读 · 0 评论 -
搭建 hadoop drelephant
1. 需要的工具java 安装 配置环境 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlplay 框架 由于drelephant 是在play上运行的所以需要https://www.playframework.com/downloadmaven http:...原创 2018-07-30 20:33:59 · 421 阅读 · 2 评论