→_→735-CSDN博客

原创 Day2 在虚拟机中安装和配置Maven

Maven 的安装和配置在虚拟机中是一个直接的过程，一旦完成，它将大大提高你的 Java 项目构建和依赖管理效率。通过自定义配置，你可以优化 Maven 的行为以适应不同的开发环境和需求。如果你在使用过程中遇到任何问题，Maven 的官方文档和社区是很好的资源。

2024-06-20 09:56:05 410

原创 Day1 虚拟机中 Hadoop 的安装与配置

Hadoop是一个开源的分布式计算平台，它允许使用简单的编程模型在跨机器集群的环境中分布式处理大规模数据集。本博客将指导你如何在虚拟机环境中安装和配置Hadoop，让你能够开始使用这个强大的大数据处理工具。

2024-06-20 09:50:13 281

原创 Day--3 手机流量统计项目：Java MapReduce 实现

统计每个手机号的上行流量、下行流量及总流量（上行流量加下行流量）。根据手机号的前缀（如13、15或其他），将统计结果分类输出到不同的文件中。数据源为access.log文件，其中包含手机号、上行流量和下行流量等信息。首先，我们定义一个 Access 类来存储手机号及其流量数据。Map 任务类将解析每一行日志，输出手机号和对应的 Access 对象。@OverrideReduce 任务类将汇总每个手机号的流量数据。@Override。

2024-06-20 09:45:01 781

原创 Day --13 智能推荐系统：协同过滤算法的魔力

协同过滤是构建智能推荐系统时常用的算法之一。它的核心思想是通过分析用户群体对产品的偏好数据，发现用户之间或物品之间的相似性，并基于这些相似性为用户生成推荐。协同过滤算法是智能推荐系统的基石，通过计算用户或物品间的相似度，为用户推荐个性化内容。在实现时，我们可以使用Python中的多个库来计算相似度，并结合实际数据构建推荐系统。随着技术的不断进步，智能推荐系统将在提高用户体验、增加用户粘性方面发挥更大的作用。本文通过实际案例展示了协同过滤算法在智能推荐系统中的应用，旨在为读者提供一个清晰的理解和实现指南。

2024-06-20 09:33:13 309

原创 Day --12 深度学习在自然语言处理中的应用：技术演进与实践案例

深度学习技术的引入极大地推动了NLP领域的发展。从基础的词汇表征到复杂的模型结构，再到预训练和微调的策略，深度学习为NLP提供了强大的工具和方法。随着研究的深入和技术的成熟，我们有理由相信，NLP将在更多领域展现其巨大的潜力和价值，为人类社会的发展贡献力量。本文提供了深度学习在NLP领域应用的全面视角。随着技术的不断进步，我们期待在更多复杂和有趣的NLP任务中看到这些模型的身影，为人类带来更加智能化的语言处理能力。

2024-06-20 09:30:16 690

原创 Day --14探索数据的隐藏模式：关联规则分析与Apriori算法

关联规则分析的经典案例是沃尔玛超市的“啤酒与尿布”现象。这一现象揭示了两个看似不相关的商品之间存在着一种内在联系，这种联系可以显著提升销售额。通过关联规则分析，我们可以发现这种联系，并利用它来优化商品布局或者进行精准营销。关联规则分析是一种强大的数据分析技术，它可以帮助我们从大量数据中发现有价值的信息。Apriori算法及其Python实现为我们提供了一种高效的方法来挖掘这些隐藏的模式。通过本文的介绍，希望你能对关联规则分析有更深的理解，并能够将其应用于实际问题中。

2024-06-20 09:24:18 483

原创 Day --11 Apache Spark 深度解析与实践指南

Apache Spark 以其卓越的性能和丰富的功能，成为了大数据处理的首选工具。本文提供了 Spark 的全面概览，从核心概念到实践操作，希望能够帮助你更好地理解和使用 Spark。随着技术的不断进步，Spark 也在不断发展和完善，让我们一起期待它的未来。---让我们一起探索 Spark 的无限可能！

2024-06-19 17:29:08 540

原创 Day -10 探索Scala编程语言：基础与应用

Scala运行于Java平台，能够与Java代码无缝集成，共享Java类库。它的设计哲学是将面向对象编程的丰富特性与函数式编程的高阶函数和不可变数据结构相结合，提供了一种强大且灵活的编程范式。Scala作为一种多范式编程语言，提供了丰富的特性和强大的表达能力。无论是构建简单的脚本还是开发大型系统，Scala都能满足开发者的需求。通过本文的介绍，希望能帮助读者对Scala有一个全面的认识，并激发大家探索Scala的兴趣。---如果您有任何问题或想要深入讨论Scala的某个特定领域，请在评论区留下您的想法。

2024-06-19 17:14:55 360

原创 Day --9 HBase安装与配置

列式存储

2024-06-17 10:33:20 329

原创 Day --8 ZooKeeper安装

①ZooKeeper（动物园管理员）是一个分布式的、开源的分布式应用程序的协调服务框架，简称zk。②ZooKeeper是Apache Hadoop 项目下的一个子项目，是一个树形目录服务。

2024-06-17 09:15:13 265

原创 Day 6 电商实践 (3)--日志的ETL操作

日志的ETL操作主要涉及三个关键步骤：抽取（Extract）、转换（Transform）和加载（Load）。

2024-06-13 09:07:51 445

原创 Day 5 电商实践(2) --统计各个省份的浏览量

类用于从URL中提取。解析纯真数据库源代码。

2024-06-13 08:54:41 223

原创 Day 7 Hive安装

Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。使用Hive原因：Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容，大大降低了传统数据分析人员处理大数据的难度- 以MR 作为计算引擎（也可选择Spark计算引擎）、HDFS 作为存储系统，为超大数据集设计的计算/ 扩展能力。

2024-06-13 00:28:08 592

原创 Day4 基于Hadoop电商实践（1）

Mapper阶段读取电商日志文件的每一行作为输入。解析每一行日志，提取出页面ID（假设字段名为pageId将页面ID作为key，输出一个计数为1的value（即每次浏览都计数为1）。将键值对输出到Reducer。Reducer阶段接收Mapper输出的所有键值对。对于每个不同的pageId，累加其对应的value（即浏览次数）。输出最终的键值对。

2024-06-12 14:35:11 346

qq_64373794的博客