自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Day13——关联规则分析与Apriori算法

​ 发生在美国沃尔玛连锁超市的真实案例:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,而这也明显增加了这两种商品的销售额。​ 原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。​ 关联规则分析的最终目标是要找出强关联规则,从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一,其核心是一种递推算法。

2024-06-20 15:00:02 418

原创 Day12——协同过滤算法

搭建智能推荐系统的算法有很多,其中商业实战中用的较多的为协同过滤(collaborative filtering)。

2024-06-20 14:50:11 346

原创 Day11——Spark

Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API,以及一个支持通用的执行图计算的优化引擎。它还支持高级工具,包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX,以及用于实时流处理的Spark Streaming。

2024-06-18 15:00:07 939

原创 Day10——HBase

HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。

2024-06-17 16:22:05 537

原创 Day9——ZooKeeper安装与配置

ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群,现在是单节点。进入下载ZooKeeper目录下,将tar包解压到指定的安装目录下。将下载的ZooKeeper放到指定目录下。

2024-06-16 13:54:00 280

原创 Day8——Hive安装与配置

Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-16 13:44:02 873

原创 Day7——电商实战项目Hadoop实现(下)

本文继续上一篇,链接在文章底部。

2024-06-12 16:08:53 232

原创 Day6——电商实战项目Hadoop实现(中)

本文继续上一篇此篇主要是具体代码。

2024-06-11 19:49:44 299

原创 Day5——Scala安装

由于Scala运行于Java平台,因此安装Scala之前需要确保系统安装了JDK。CMD中执行scala -version命令。CMD中执行scala -version命令。变量值:%SCALA_HOME%\bin。,并解压到指定目录。变量值:你的Scala的安装路径。变量名:SCALA_HOME。

2024-06-08 18:17:36 352

原创 Day4——电商实战项目Hadoop实现(上)

电商是一种通过互联网进行商品和服务交易的新型贸易形式。随着互联网的普及和人们生活中越来越多的事物都变得数字化,电商已经成为现代社会中不可或缺的一部分。电商平台为消费者提供了方便快捷的购物体验,为商家提供了广阔的市场和高效的销售渠道。然而,电商平台上的数据量巨大,数据类型多样,数据流量高峰时间突然增加,这为数据分析和挖掘带来了巨大挑战。Hadoop 是一个开源的分布式文件系统(HDFS)和分布式计算框架(MapReduce),它可以处理大规模数据并提供高性能、高可靠性和高可扩展性。

2024-06-06 21:30:00 390

原创 Day3——手机流量统计项目

在当今数字化时代,手机已经成为人们生活的必需品,许多人离不开手机,随时随地都需要使用网络。然而,手机上网使用流量是有限的,超出流量限制会导致额外的费用。因此,手机上网流量的统计和管理变得非常重要。手机流量统计项目的背景是为了帮助用户控制和管理手机上网使用的流量,并提供相关的统计和预警功能。通过对手机流量的监控和分析,用户可以了解自己的流量消耗情况,避免超出限制而产生额外费用。提示:以下是本篇文章正文内容,下面案例可供参考。

2024-06-06 14:01:42 393

原创 Day2——Hadoop伪分布式安装

Hadoop伪分布式安装在前文Hadoop单机安装基础上进行。

2024-06-04 22:42:23 764

原创 Day1——Linux基础及Hadoop单机安装

Linux是一个性能稳定、功能强大、效率高、安全且内核开源的操作系统。其内核由当时还是芬兰赫尔辛基大学学生的林纳斯·本纳第克特·托瓦兹(Linus Benedict Torvalds)于1991年10月5日首次发布。

2024-06-04 22:10:52 662

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除