自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 实训日记12

操作HBase之前为什么要先启动ZooKeeper服务?​ ZooKeeper是一个分布式协调服务,而HBase是一个分布式的面向列的NoSQL数据库。具体来说:(1)ZooKeeper为HBase提供了可靠的协调服务:HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。(2)ZooKeeper用于管理HBase元数据:HBase通过ZooKeeper来存储和管理其表结构、Region服务器的位置信息以及其他元数据。

2024-06-14 10:38:07 361

原创 实训日记11

​ HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。

2024-06-14 10:37:23 291

原创 实训日记10

​ ZooKeeper是一个树形目录服务,每一个节点都被称为ZNode,每个节点。上都会保存自己的数据和节点信息。节点可以拥有子节点,同时也允许少量。(1MB)数据存储在该节点上。

2024-06-14 09:59:12 332

原创 实训日记9

进入/export/software目录下,将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群,现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录:dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。

2024-06-14 09:57:17 172

原创 实训日记8

其中:WITH DBPROPERTIES ,用来指定数据属性数据。

2024-06-14 09:55:07 361

原创 实训日记7

​ Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-14 09:53:56 1605

原创 实训日记6

不仅巩固了对 MapReduce 编程模型的理解,还学会了如何结合第三方工具进行数据解析和处理,为电商日志数据分析提供了可靠的方法。

2024-06-14 09:48:10 184

原创 实训日记5

这里我们需要提取每一条数据中的ip、url、pageId、contry、province、city字段。其中ip、url 和 pageId可以直接通过字符串的处理得到。contry、province 和 city 通过定义的工具类进行处理后得到。

2024-06-14 09:43:06 307

原创 实训日记4

我们需要提取每一条数据中的ip,在Map阶段使用ip解析的工具类,将每个ip对应到所属省份,将未知ip设置为默认值,得到的省份作为键,值设置为1。Reduce阶段合并相同的键并将对应值求和。

2024-06-14 09:40:21 508

原创 实训日记3

Map阶段,对于每一条数据,设置一个默认键(只用于标记该行),值设置为1。Reduce阶段,获得所有的值的和即可。

2024-06-14 09:35:32 192

原创 实习日记2

根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-14 09:22:51 241

原创 实训日记1 -----手机流量统计项目

Map阶段读取一行数据需要记录’上行流量’,‘下行流量’以及’总流量’,单个基本数据类型不方便保存,引入自定义对象保存,但需要序列化。

2024-06-04 20:40:59 1262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除