自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 电影智能推荐系统

​ 人们经常会在视频平台上观看影片,有时目标明确,想要观看某部电影,但有时仅仅是随机搜寻。​ 如果视频平台可以利用基于物品的智能推荐系统,有效地从用户对其观看过的电影的评分中挖掘数据,便可以根据用户偏好的电影个性化地推荐更多类似的电影,优化用户体验,提高用户粘性,创造额外收入。

2024-06-21 14:45:59 308

原创 spark SQL热点搜索词统计

要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。

2024-06-20 13:59:53 239

原创 Spark SQL基础

​ 当Spark SQL提供的内置函数不能满足查询需求时,用户可以根据需求编写自定义函数(User Defined Functions, UDF),然后在Spark SQL中调用。​ 例如有这样一个需求:为了保护用户的隐私,当查询数据的时候,需要将用户手机号的中间4位数字用星号()代替,比如手机号180***2688。这时就可以编写一个自定义函数来实现这个需求,实现代码如下:​/*** 用户自定义函数,隐藏手机号中间4位*///创建或得到SparkSession。

2024-06-20 13:41:50 305

原创 电商日志文件分析需求三

本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)使用Hadoop命令提交。EtlReducer类。EtlMapper类。EtlDriver类。也可在终端上查看结果。

2024-06-19 16:04:18 260

原创 电商日志文件分析需求二

为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)统计各个省份的浏览量 (需要解析IP)统计各个省份的浏览量 (需要解析IP)ProvinceReducer类。基于需求一构建以下几个类。使用Hadoop命令提交。也可在终端上查看结果。

2024-06-19 10:52:40 134

原创 电商日志文件分析需求一

根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city如图所示为相关数据共计30000行。

2024-06-19 10:40:24 239

原创 Spark

唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。通常用SparkContext代表Driver。

2024-06-18 19:30:00 1159

原创 HBase部署与启动

​ 总体上说,ZooKeeper提供了可靠的分布式协调服务,而HBase利用ZooKeeper来实现高可用性、数据一致性和元数据管理等功能,从而使得在大规模分布式环境下运行的HBase数据库更加稳定和可靠。(3)ZooKeeper监控HBase集群健康状态:ZooKeeper可以监控和报告HBase集群中各个节点的健康状态。(1)ZooKeeper为HBase提供了可靠的协调服务:HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。(2)配置hbase-env.sh。

2024-06-18 16:30:00 228

原创 Zookeeper的配置与安装

进入/export/software目录下,将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群,现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录:dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。

2024-06-18 15:00:00 256

原创 hive的安装与配置

​ Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-18 14:15:00 1579

原创 hadoop手机流量日志分析

​ 继承org.apache.hadoop.mapreduce.Partitioner类,"13"开头的手机号交给第一个ReduceTask任务处理,最终输出到0号分区,"15"开头的手机号交给第二个ReduceTask任务处理,最终输出到1号分区,其余手机号交给第三个ReduceTask任务处理,最终输出到2号分区。​ 统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。

2024-06-18 09:52:29 473

原创 Linux下idea中maven的配置

先从官网中下在相对应的tar包将下载的安装包上传到虚拟机上(通过Xftp7)Xftp7下载地址打开到上传文件的所在位置使用命令将其家解压到目标路径下。

2024-06-16 15:46:33 175 1

原创 Linux虚拟机IP地址配置及JDK安装

创建完成的虚拟机默认为动态IP地址,若重启系统后IP地址很可能会发生改变,非常不利于实际开发,所以有必要将IP地址修改为静态的。

2024-06-05 14:54:16 423 3

原创 Hadoop3单机伪分布集群安装

要安装部署Hadoop3,除了安装JDK外,还要进行SSH免密钥登录功能的配置,这是为了方便进行集群主机间的通信,配置SSH免密钥登录的步骤如下:1)在需要进行集群统一管理的虚拟机上输入命令生成密钥(根据提示可以不用输入任何内容,连续按4次Enter键确认即可)。(2)生成密钥操作默认会在root目录下生成一个包含有密钥文件的.ssh隐藏目录。执行命令进入.ssh隐藏目录,在该目录下执行ll -a命令查看当前目录下的所有文件。

2024-06-05 14:35:15 1742 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除