wcllllll30-CSDN博客

原创实训日记12

操作HBase之前为什么要先启动ZooKeeper服务？ ZooKeeper是一个分布式协调服务，而HBase是一个分布式的面向列的NoSQL数据库。具体来说：（1）ZooKeeper为HBase提供了可靠的协调服务：HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。（2）ZooKeeper用于管理HBase元数据：HBase通过ZooKeeper来存储和管理其表结构、Region服务器的位置信息以及其他元数据。

2024-06-14 10:38:07 361

原创实训日记11

HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。

2024-06-14 10:37:23 291

原创实训日记10

ZooKeeper是一个树形目录服务,每一个节点都被称为ZNode，每个节点。上都会保存自己的数据和节点信息。节点可以拥有子节点，同时也允许少量。（1MB）数据存储在该节点上。

2024-06-14 09:59:12 332

原创实训日记9

进入/export/software目录下，将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的，它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群，现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录：dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。

2024-06-14 09:57:17 172

原创实训日记8

其中：WITH DBPROPERTIES ，用来指定数据属性数据。

2024-06-14 09:55:07 361

原创实训日记7

Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。

2024-06-14 09:53:56 1605

原创实训日记6

不仅巩固了对 MapReduce 编程模型的理解，还学会了如何结合第三方工具进行数据解析和处理，为电商日志数据分析提供了可靠的方法。

2024-06-14 09:48:10 184

原创实训日记5

这里我们需要提取每一条数据中的ip、url、pageId、contry、province、city字段。其中ip、url 和 pageId可以直接通过字符串的处理得到。contry、province 和 city 通过定义的工具类进行处理后得到。

2024-06-14 09:43:06 307

原创实训日记4

我们需要提取每一条数据中的ip，在Map阶段使用ip解析的工具类，将每个ip对应到所属省份，将未知ip设置为默认值，得到的省份作为键，值设置为1。Reduce阶段合并相同的键并将对应值求和。

2024-06-14 09:40:21 508

原创实训日记3

Map阶段，对于每一条数据，设置一个默认键（只用于标记该行），值设置为1。Reduce阶段，获得所有的值的和即可。

2024-06-14 09:35:32 192

原创实习日记2

根据电商日志文件，分析：统计页面浏览量（每行记录就是一次浏览）统计各个省份的浏览量（需要解析IP）日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-14 09:22:51 241

原创实训日记1 -----手机流量统计项目

Map阶段读取一行数据需要记录’上行流量’,‘下行流量’以及’总流量’,单个基本数据类型不方便保存,引入自定义对象保存，但需要序列化。

2024-06-04 20:40:59 1262

Wclalyzzzzz的博客