- 博客(12)
- 收藏
- 关注
原创 实训日记12
操作HBase之前为什么要先启动ZooKeeper服务? ZooKeeper是一个分布式协调服务,而HBase是一个分布式的面向列的NoSQL数据库。具体来说:(1)ZooKeeper为HBase提供了可靠的协调服务:HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。(2)ZooKeeper用于管理HBase元数据:HBase通过ZooKeeper来存储和管理其表结构、Region服务器的位置信息以及其他元数据。
2024-06-14 10:38:07
361
原创 实训日记11
HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。
2024-06-14 10:37:23
291
原创 实训日记10
ZooKeeper是一个树形目录服务,每一个节点都被称为ZNode,每个节点。上都会保存自己的数据和节点信息。节点可以拥有子节点,同时也允许少量。(1MB)数据存储在该节点上。
2024-06-14 09:59:12
332
原创 实训日记9
进入/export/software目录下,将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群,现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录:dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。
2024-06-14 09:57:17
172
原创 实训日记7
Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。
2024-06-14 09:53:56
1605
原创 实训日记5
这里我们需要提取每一条数据中的ip、url、pageId、contry、province、city字段。其中ip、url 和 pageId可以直接通过字符串的处理得到。contry、province 和 city 通过定义的工具类进行处理后得到。
2024-06-14 09:43:06
307
原创 实训日记4
我们需要提取每一条数据中的ip,在Map阶段使用ip解析的工具类,将每个ip对应到所属省份,将未知ip设置为默认值,得到的省份作为键,值设置为1。Reduce阶段合并相同的键并将对应值求和。
2024-06-14 09:40:21
508
原创 实习日记2
根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。
2024-06-14 09:22:51
241
原创 实训日记1 -----手机流量统计项目
Map阶段读取一行数据需要记录’上行流量’,‘下行流量’以及’总流量’,单个基本数据类型不方便保存,引入自定义对象保存,但需要序列化。
2024-06-04 20:40:59
1262
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人