一欢欢欢-CSDN博客

原创【Day 12 大语言模型】

大语言模型（LLM）是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的一条重要途径。

2024-06-20 14:48:42 776

Apriori算法是种挖掘关联规则的频繁项集算法，一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。Apriori算法已经被广泛的应用到商业、网络安全等各个领域。Apriori算法采用了逐层搜索的迭代的方法，算法简单明了，没有复杂的理论推导，也易于实现。

2024-06-19 16:27:38 1734

原创【Day 10 Spark SQL基础】

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。当Spark SQL提供的内置函数不能满足查询需求时，用户可以根据需求编写自定义函数（User Defined Functions, UDF），然后在Spark SQL中调用。

2024-06-17 16:29:27 665

原创【Day 9 Spark安装与配置】

Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境，但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API，以及一个支持通用的执行图计算的优化引擎。它还支持高级工具，包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX，以及用于实时流处理的Spark Streaming。

2024-06-16 10:56:24 746

原创【Day 8 Zookeeper和HBase安装与配置】

Zookeeper 是一个分布式应用程序的分布式开源协调服务。是Apache Hadoop 的一个子项目，主要用来解决分布式应用中经常遇到的一些数据管理问题，例如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。

2024-06-13 15:51:29 597

原创【Day 7 Hive安装与配置】

Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。

2024-06-13 15:36:44 466

原创【Day 6 Scala安装与配置】

Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。Scala运行于Java平台，Scala程序会通过JVM被编译成class字节码文件，然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下，并且Scala代码可以调用Java方法、继承Java类、实现Java接口等，几乎所有Scala代码都大量使用了Java类库。

2024-06-12 11:44:48 764

原创【Day 5 电商日志数据分析3】

日志的ETL操作前言项目需求开发步骤1.编写IPSeeker类2.编写IPParser类3.编写LogParser类4.编写GetPageId类5.编写LogsETL类（MapReduce任务）结果展示总结前言ETL(Extract, Transform, Load)操作是指将原始数据从一个或多个来源抽取出来，经过一系列的转换操作后，加载到目标系统中。日志的ETL操作主要有以下目的：数据清洗和过滤：日志数据通常包含大量的冗余信息和噪音数据，需要进行清洗和过滤。通过ETL操作，可以去除无效的数据，例

2024-06-12 09:27:31 1483

qq_62084769的博客

原创【Day 12 大语言模型】

原创【Day 11 协同过滤算法与Apriori算法】

原创【Day 10 Spark SQL基础】

原创【Day 9 Spark安装与配置】

原创【Day 8 Zookeeper和HBase安装与配置】

原创【Day 7 Hive安装与配置】

原创【Day 6 Scala安装与配置】

原创【Day 5 电商日志数据分析3】

原创【Day 4 电商日志数据分析2】

原创【Day 3 电商日志数据分析1】

原创【Day 2 手机流量统计项目】

原创【Day1 Hadoop伪分布式安装】

空空如也

空空如也