自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 day14-深入Linux环境下的Hive学习之旅:从入门到实践

Hive建立在Hadoop之上,它允许用户使用类SQL语法来查询和管理存储在Hadoop分布式文件系统(HDFS)中的数据。Hive特别适合于数据分析任务,如日志处理或大规模数据挖掘,因为它能够以较低的学习成本实现大数据的复杂查询。通过以上步骤,我们不仅在Linux环境中成功安装并配置了Hive,还通过实战演练体验了从表的创建、数据加载到复杂查询的全过程。Hive以其易用性和强大的数据处理能力,成为大数据分析领域不可或缺的工具之一。

2024-06-21 14:54:20 359

原创 day13-热点词搜索统计

根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。

2024-06-20 13:29:43 308

原创 day12-Spark SQL

​ Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-19 22:59:57 864

原创 day11-Spark RDD

​ Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。​ RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。​ 分布式数据集是指:一个数据集存储在不同的节点上,每个节点存储数据集的一部分。

2024-06-19 16:55:40 469

原创 day10-Hbase基本操作

​ 旧版本的数据在适当的时候会被释放;如果想要保留最新两个版本的数据,可以将某个表的 VERSIONS设置为2。注意:修改数据后,其实只是在原来的基础上增加了一条数据,查询的时候返回了时间戳最新的一个版本,旧版本的数据还在;注意:创建表时若不指定库名,则默认在default库下创建表,创建表需要至少指定一个列族。truncate命令将删除表中的所有数据行,但是保留表的结构和配置信息。注意:删除表需要先进行disable,再进行drop。会发现删除的数据有Delete标注。

2024-06-17 14:32:26 299

原创 day9-Hbase部署与启动

【代码】day9-Hbase部署与启动。

2024-06-17 10:04:35 137

原创 day8-Zookeeper相关命令操作

【代码】day8-Zookeeper相关命令操作。

2024-06-17 09:06:03 280

原创 day7-Zookeeper安装以及相关命令

查看zookeeper状态。2. 修改zoo.cfg。启动zookeeper。

2024-06-17 08:49:23 778

原创 day6-hive安装

Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-13 09:56:09 1976

原创 day5-电商日志分析具体实践

1.页面流量统计分析(统计页面浏览量:每行记录就是一次浏览)2.统计各个省份的浏览量 (需要解析IP)4.utils工具类实现。3.日志的ETL操作。

2024-06-12 10:24:19 406

原创 day4-电商日志分析

日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程) 为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)

2024-06-09 20:27:13 1065

原创 day3入门案例——wordcount词频统计分析

Shuffling:即将map输出作为输入传给reducer称为shuffle,由于 Mapping 操作可能是在不同的机器上并行处理的,所以需要通过 shuffling 将相同 key 值的数据分发到一起合并(默认处理方式),这样才能统计出最终的结果,此时得到 K2 为每一个单词,List(V2) 为可迭代集合,V2 就是 Mapping 中的 V2;Splitting : 将文件按照文件块(block)进行拆分,但是读取的时候还是一行行地读,此时得到的 K1偏移量,V1表示对应行的文本内容。

2024-06-06 19:08:35 498

原创 day0-Linux系统IP配置以及jdk安装

不过此时配置内容尚未生效,还需要执行source /etc/profile命令使配置内容生效。提供的默认网段 在配置虚拟机网卡前,需要查看VMware Workstation。址很可能会发生改变,非常不利于实际开发,所以有必要将。)修改完网卡配置文件后即可保存退出,然后执行重启网。)上述内容添加完毕后,保存系统环境变量文件。,由于网卡设置为静态路由协议,需要添。,注:不同虚拟机,文件名可能不同。(该目录需提前创建),具体命令如下。(该目录需提前创建),然后执行。,在文件 末尾添加如下内容。

2024-06-05 15:11:53 474

原创 day2-手机流量统计项目

继承org.apache.hadoop.mapreduce.Partitioner类,"13"开头的手机号交给第一个ReduceTask任务处理,最终输出到0号分区,"15"开头的手机号交给第二个ReduceTask任务处理,最终输出到1号分区,其余手机号交给第三个ReduceTask任务处理,最终输出到2号分区。统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。8.定义ProvincePartitioner。

2024-06-05 13:43:16 1482

原创 day1-hadoop伪分布式问题解决

缺少namenode节点如何解决

2024-06-04 20:12:00 734 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除