自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Scala编程基础:从安装到集合操作

Scala是一种运行在Java平台上的语言,能够编译成JVM字节码。它不仅支持面向对象的编程范式,还融入了函数式编程的特性,使其在处理复杂编程模式时更为灵活和强大。Scala的类定义使用class关键字,支持主构造器和辅助构造器。

2024-06-21 08:42:03 424 1

原创 探索大语言模型与本地智能知识问答系统的构建

基于Langchain-chatchat搭建的本地智能知识问答系统,为需要数据安全保护和私域化部署的企业提供了一个高效、可靠的解决方案。

2024-06-21 08:41:50 636 1

原创 协同过滤与关联规则分析:原理、实现与应用

在推荐系统领域,协同过滤算法和关联规则分析是两种常用的技术。协同过滤算法通过分析用户之间的行为相似性来推荐项目,而关联规则分析则用于发现项目之间的有趣关系。最后,将介绍关联规则分析的基本概念,并详细说明 Apriori 算法的步骤和代码实现。本文介绍了协同过滤算法的原理、相似度计算方法,并通过 Python 实现了余弦相似度计算和在 DataFrame 中应用相关系数。此外,还介绍了关联规则分析的基本概念,并详细说明了 Apriori 算法的步骤和代码实现。相似度计算是协同过滤算法的核心。

2024-06-20 20:15:00 758 1

原创 Spark SQL与Hive的整合以及ZooKeeper入门

ZooKeeper 是一个高性能的协调服务,用于维护配置信息、命名、提供分布式同步和提供组服务等。它的核心是一个简单的数据模型,类似于传统的文件系统。ZooKeeper 作为一个强大的分布式协调服务,在构建分布式系统时扮演着重要角色。通过本文的介绍,您应该对 ZooKeeper 的基本概念、安装、启动和客户端命令有了一定的了解。希望这些信息能够帮助您快速上手 ZooKeeper,并在实际项目中有效地使用它。

2024-06-20 20:00:00 696

原创 Apache Spark 入门指南:概述、安装、使用及RDD基础

Apache Spark 是一个快速且通用的大规模数据处理引擎。它提供了一个易于使用的编程模型,支持Java、Scala、Python和R等多种编程语言。Spark 能够高效地处理各种数据,包括批量数据和实时数据流。在Spark中,RDD(Resilient Distributed Dataset)提供了多种算子来处理数据。这些算子分为两类:转换(Transformations)和行动(Actions)。

2024-06-20 08:30:00 1751

原创 HBase安装_配置_启动

(1)下载、解压缩,在/etc/profile全局配置文件中添加(2)配置hbase-env.sh(3)配置hbase-site.xml(3)拷贝zookeeper的conf/zoo.cfg到hbase的conf/下(4)启动HBase执行start-hbase.sh脚本注意:为了方便启动,可在/etc/profile中添加环境变量。

2024-06-20 08:00:00 391

原创 Hive安装_配置_启动

Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-20 07:00:00 598

原创 电商实战——Hadoop实现Day4

根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-19 20:45:00 1901

原创 电商实战——Hadoop实现Day3

继续问题二编写LogAnalysisDriver.java类编写Mapper类编写reducer类以上是对项目二第二问的实现过程。

2024-06-19 20:30:00 298

原创 电商实战——Hadoop实现Day2

根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-19 20:15:00 246

原创 电商实战——Hadoop实现Day1

根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-19 20:00:00 262

原创 基于MapReduce实现手机流量统计 - DAY3

继承org.apache.hadoop.mapreduce.Partitioner类,"13"开头的手机号交给第一个ReduceTask任务处理,最终输出到0号分区,"15"开头的手机号交给第二个ReduceTask任务处理,最终输出到1号分区,其余手机号交给第三个ReduceTask任务处理,最终输出到2号分区。

2024-06-13 16:40:22 319

原创 基于MapReduce实现手机流量统计 - DAY2

定义一个phoneBean.java。定义Mapper和Reduce方法。定义一个Drive.java类。

2024-06-13 16:14:14 110

原创 基于MapReduce实现手机流量统计 - DAY1

统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。手机号 上行包总和 下行包总和 上行流量总和 下行流量总和。Mapper: 把手机号、上行流量、下行流量拆开 把手机号作为key,把Access作为value写出去。Reducer形如:(“手机号”,)根据手机号进行分组,然后把该手机号对应的上下行流量加起来。

2024-06-13 16:00:25 245

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除