s12617-CSDN博客

原创 Scala编程基础：从安装到集合操作

Scala是一种运行在Java平台上的语言，能够编译成JVM字节码。它不仅支持面向对象的编程范式，还融入了函数式编程的特性，使其在处理复杂编程模式时更为灵活和强大。Scala的类定义使用class关键字，支持主构造器和辅助构造器。

2024-06-21 08:42:03 458 1

原创探索大语言模型与本地智能知识问答系统的构建

基于Langchain-chatchat搭建的本地智能知识问答系统，为需要数据安全保护和私域化部署的企业提供了一个高效、可靠的解决方案。

2024-06-21 08:41:50 707 1

在推荐系统领域，协同过滤算法和关联规则分析是两种常用的技术。协同过滤算法通过分析用户之间的行为相似性来推荐项目，而关联规则分析则用于发现项目之间的有趣关系。最后，将介绍关联规则分析的基本概念，并详细说明 Apriori 算法的步骤和代码实现。本文介绍了协同过滤算法的原理、相似度计算方法，并通过 Python 实现了余弦相似度计算和在 DataFrame 中应用相关系数。此外，还介绍了关联规则分析的基本概念，并详细说明了 Apriori 算法的步骤和代码实现。相似度计算是协同过滤算法的核心。

2024-06-20 20:15:00 1720 1

原创 Spark SQL与Hive的整合以及ZooKeeper入门

ZooKeeper 是一个高性能的协调服务，用于维护配置信息、命名、提供分布式同步和提供组服务等。它的核心是一个简单的数据模型，类似于传统的文件系统。ZooKeeper 作为一个强大的分布式协调服务，在构建分布式系统时扮演着重要角色。通过本文的介绍，您应该对 ZooKeeper 的基本概念、安装、启动和客户端命令有了一定的了解。希望这些信息能够帮助您快速上手 ZooKeeper，并在实际项目中有效地使用它。

2024-06-20 20:00:00 749

原创 Apache Spark 入门指南：概述、安装、使用及RDD基础

Apache Spark 是一个快速且通用的大规模数据处理引擎。它提供了一个易于使用的编程模型，支持Java、Scala、Python和R等多种编程语言。Spark 能够高效地处理各种数据，包括批量数据和实时数据流。在Spark中，RDD（Resilient Distributed Dataset）提供了多种算子来处理数据。这些算子分为两类：转换（Transformations）和行动（Actions）。

2024-06-20 08:30:00 2549

原创 HBase安装_配置_启动

（1）下载、解压缩，在/etc/profile全局配置文件中添加（2）配置hbase-env.sh（3）配置hbase-site.xml（3）拷贝zookeeper的conf/zoo.cfg到hbase的conf/下（4）启动HBase执行start-hbase.sh脚本注意：为了方便启动，可在/etc/profile中添加环境变量。

2024-06-20 08:00:00 404

原创 Hive安装_配置_启动

Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。

2024-06-20 07:00:00 619

原创电商实战——Hadoop实现Day4

根据电商日志文件，分析：统计页面浏览量（每行记录就是一次浏览）统计各个省份的浏览量（需要解析IP）日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-19 20:45:00 2088

原创电商实战——Hadoop实现Day3

继续问题二编写LogAnalysisDriver.java类编写Mapper类编写reducer类以上是对项目二第二问的实现过程。

2024-06-19 20:30:00 332

原创电商实战——Hadoop实现Day2

根据电商日志文件，分析：统计页面浏览量（每行记录就是一次浏览）统计各个省份的浏览量（需要解析IP）日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-19 20:15:00 278

原创电商实战——Hadoop实现Day1

根据电商日志文件，分析：统计页面浏览量（每行记录就是一次浏览）统计各个省份的浏览量（需要解析IP）日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-19 20:00:00 294

原创基于MapReduce实现手机流量统计 - DAY3

继承org.apache.hadoop.mapreduce.Partitioner类，"13"开头的手机号交给第一个ReduceTask任务处理，最终输出到0号分区，"15"开头的手机号交给第二个ReduceTask任务处理，最终输出到1号分区，其余手机号交给第三个ReduceTask任务处理，最终输出到2号分区。

2024-06-13 16:40:22 341

原创基于MapReduce实现手机流量统计 - DAY2

定义一个phoneBean.java。定义Mapper和Reduce方法。定义一个Drive.java类。

2024-06-13 16:14:14 134

原创基于MapReduce实现手机流量统计 - DAY1

统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。手机号上行包总和下行包总和上行流量总和下行流量总和。Mapper: 把手机号、上行流量、下行流量拆开把手机号作为key，把Access作为value写出去。Reducer形如：(“手机号”,)根据手机号进行分组，然后把该手机号对应的上下行流量加起来。

2024-06-13 16:00:25 283

qq_64355981的博客

原创 Scala编程基础：从安装到集合操作

原创探索大语言模型与本地智能知识问答系统的构建

原创协同过滤与关联规则分析：原理、实现与应用

原创 Spark SQL与Hive的整合以及ZooKeeper入门

原创 Apache Spark 入门指南：概述、安装、使用及RDD基础

原创 HBase安装_配置_启动

原创 Hive安装_配置_启动

原创电商实战——Hadoop实现Day4

原创电商实战——Hadoop实现Day3

原创电商实战——Hadoop实现Day2

原创电商实战——Hadoop实现Day1

原创基于MapReduce实现手机流量统计 - DAY3

原创基于MapReduce实现手机流量统计 - DAY2

原创基于MapReduce实现手机流量统计 - DAY1

空空如也

空空如也