自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 【Day 12 大语言模型】

大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。

2024-06-20 14:48:42 776

原创 【Day 11 协同过滤算法与Apriori算法】

Apriori算法是种挖掘关联规则的频繁项集算法,一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。Apriori算法已经被广泛的应用到商业、网络安全等各个领域。Apriori算法采用了逐层搜索的迭代的方法,算法简单明了,没有复杂的理论推导,也易于实现。

2024-06-19 16:27:38 1734

原创 【Day 10 Spark SQL基础】

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。当Spark SQL提供的内置函数不能满足查询需求时,用户可以根据需求编写自定义函数(User Defined Functions, UDF),然后在Spark SQL中调用。

2024-06-17 16:29:27 665

原创 【Day 9 Spark安装与配置】

Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API,以及一个支持通用的执行图计算的优化引擎。它还支持高级工具,包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX,以及用于实时流处理的Spark Streaming。

2024-06-16 10:56:24 746

原创 【Day 8 Zookeeper和HBase安装与配置】

Zookeeper 是一个分布式应用程序的分布式开源协调服务。是Apache Hadoop 的一个子项目,主要用来解决分布式应用中经常遇到的一些数据管理问题,例如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。

2024-06-13 15:51:29 597

原创 【Day 7 Hive安装与配置】

Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-13 15:36:44 466

原创 【Day 6 Scala安装与配置】

Scala是一种将面向对象和函数式编程结合在一起的高级语言,旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大,不仅可以编写简单脚本,还可以构建大型系统。Scala运行于Java平台,Scala程序会通过JVM被编译成class字节码文件,然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下,并且Scala代码可以调用Java方法、继承Java类、实现Java接口等,几乎所有Scala代码都大量使用了Java类库。

2024-06-12 11:44:48 764

原创 【Day 5 电商日志数据分析3】

日志的ETL操作前言项目需求开发步骤1.编写IPSeeker类2.编写IPParser类3.编写LogParser类4.编写GetPageId类5.编写LogsETL类(MapReduce任务)结果展示总结前言ETL(Extract, Transform, Load)操作是指将原始数据从一个或多个来源抽取出来,经过一系列的转换操作后,加载到目标系统中。日志的ETL操作主要有以下目的:数据清洗和过滤:日志数据通常包含大量的冗余信息和噪音数据,需要进行清洗和过滤。通过ETL操作,可以去除无效的数据,例

2024-06-12 09:27:31 1483

原创 【Day 4 电商日志数据分析2】

统计各个省份的浏览量(需要解析IP)前言项目需求开发步骤1.编写IPSeeker类2.编写IPParser3.编写LogParser类4.编写MapReduce任务代码结果展示总结前言MapReduce省份浏览量统计的目的是通过分布式计算的方式,对大规模的网页访问数据进行处理和统计,以便了解不同省份的网页访问量情况,并能够根据这些统计数据进行相应的决策和优化。提示:以下是本篇文章正文内容,下面案例可供参考项目需求省份浏览量统计(需要解析IP)部分数据展示如下:开发步骤1.编写IPSee

2024-06-12 09:06:11 478

原创 【Day 3 电商日志数据分析1】

随着电商的快速发展,越来越多的企业开始关注电商日志数据分析,以了解用户行为和需求,从而优化产品设计和营销策略,提升用户体验和销售效果。而其中一个重要的指标就是页面浏览量,即用户访问某个页面的次数。统计页面浏览量能够帮助企业了解用户对不同页面的兴趣程度和热度,从而调整页面布局和内容,提升用户留存率和转化率。提示:以下是本篇文章正文内容,下面案例可供参考// 使用特殊字符分隔符 (ASCII SOH) String count = "count";

2024-06-05 21:48:45 413

原创 【Day 2 手机流量统计项目】

在当今数字化时代,手机已经成为人们生活的必需品,许多人离不开手机,随时随地都需要使用网络。然而,手机上网使用流量是有限的,超出流量限制会导致额外的费用。因此,手机上网流量的统计和管理变得非常重要。手机流量统计项目的背景是为了帮助用户控制和管理手机上网使用的流量,并提供相关的统计和预警功能。通过对手机流量的监控和分析,用户可以了解自己的流量消耗情况,避免超出限制而产生额外费用。

2024-06-04 23:14:36 1566 1

原创 【Day1 Hadoop伪分布式安装】

通过一天的学习,学会了如何在单台机器上安装和配置Hadoop伪分布式模式。搭建了一个模拟分布式环境的学习和开发平台。接下来,可以开始学习和使用Hadoop的各种功能和特性了。

2024-06-04 21:48:03 726 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除