自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 利用Apache Spark分析热点搜索词

通过本文的示例,我们学习了如何使用Apache Spark来处理和分析大规模数据集。这种方法可以应用于各种场景,如市场分析、用户行为研究等。Apache Spark的强大功能和灵活性使其成为大数据处理的首选工具之一。

2024-06-21 09:57:51 346

原创 关联规则分析与Apriori算法详解

Apriori算法通过迭代过程,找出满足最小支持度的频繁项集,然后从中挖掘出满足最小置信度的强关联规则。关联规则分析是一种强大的数据挖掘技术,能够帮助企业发现产品间的内在联系,优化营销策略和提高销售效率。Apriori算法作为该领域的经典算法,通过简单易懂的步骤实现深入的数据探索。

2024-06-21 00:34:36 331

原创 协同过滤算法与智能推荐系统实战

视频平台通过智能推荐系统,根据用户对电影的评分,挖掘数据并个性化推荐类似电影,优化用户体验。协同过滤算法在智能推荐系统中的应用广泛,通过精确计算用户或物品间的相似度,为用户带来个性化的推荐体验。本文介绍了协同过滤算法的原理、相似度计算方法,并通过Python实现及电影推荐系统的案例,展示了协同过滤算法的实战应用。

2024-06-21 00:33:57 773

原创 协同过滤算法与智能推荐系统实战

视频平台通过智能推荐系统,根据用户对电影的评分,挖掘数据并个性化推荐类似电影,优化用户体验。协同过滤算法在智能推荐系统中的应用广泛,通过精确计算用户或物品间的相似度,为用户带来个性化的推荐体验。本文介绍了协同过滤算法的原理、相似度计算方法,并通过Python实现及电影推荐系统的案例,展示了协同过滤算法的实战应用。

2024-06-21 00:31:35 764

原创 HBase基本操作演示

本文介绍了HBase的基本操作,包括启动服务、数据库和表的基本操作,以及数据的CRUD操作。掌握这些基本操作对于使用HBase进行NoSQL数据库管理至关重要。

2024-06-21 00:29:03 354

原创 HBase理论概述

HBase是一个面向列式存储的分布式数据库,它底层存储基于HDFS实现,而集群管理则依赖于ZooKeeper。

2024-06-21 00:26:01 151

原创 Hive数据库基本操作

Hive 提供了丰富的数据操作功能,包括数据库和表的创建、数据的导入导出,以及复杂的查询操作等。掌握这些基本操作对于大数据分析至关重要。

2024-06-21 00:22:53 406

原创 Hive安装、配置及启动指南

Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。由Facebook于2008年开源,Hive提供类似于SQL的HQL语句作为数据访问接口,使传统数据分析人员能够更容易地处理大数据。

2024-06-21 00:20:23 635

原创 Spark RDD与运行模式详解

Spark的RDD为分布式数据处理提供了强大的抽象能力,而其灵活的运行模式使其能够适应从单机到大规模集群的多种计算环境。通过和Spark Shell工具,用户可以方便地提交和管理Spark应用程序。

2024-06-21 00:17:21 264

原创 Spark概述

在数据计算层,Hadoop的核心组件MapReduce可以结合Hive,通过类SQL的方式进行数据的离线计算。Spark是一个多功能的计算框架,既可以进行离线计算(通过Spark SQL),也可以进行实时计算(通过Spark Streaming)。这些功能都建立在Spark的核心引擎之上。

2024-06-21 00:14:09 166

原创 Spark SQL整合Hive

Hive 是一个基于 Hadoop 的数据仓库架构,它使用 SQL 语句(HiveQL)来读写和管理大型分布式数据集。Hive 通过将 SQL 语句转化为 MapReduce(或 Apache Spark、Apache Tez)任务,降低了 Hadoop 的使用难度,并减少了开发时间。Hive 适用于数据仓库的统计分析,能够执行 ETL、生成分析报告和进行数据分析等任务。

2024-06-21 00:09:58 375

原创 Spark SQL基础

用户可以根据需求编写自定义函数(UDF),然后在 Spark SQL 中调用。

2024-06-21 00:08:23 241

原创 Scala基础

Scala是一种将面向对象和函数式编程结合在一起的高级语言,旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大,不仅可以编写简单脚本,还可以构建大型系统。Scala运行于Java平台,Scala程序会通过JVM被编译成class字节码文件,然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下,并且Scala代码可以调用Java方法、继承Java类、实现Java接口等,几乎所有Scala代码都大量使用了Java类库。

2024-06-21 00:02:04 924

原创 Linux Shell

Shell 是Linux系统的用户界面,提供了用户与内核进行交互操作的一种接口。它接收用户输入的命令并把它送入内核去执行。Shell本身也是一种高级程序设计语言,提供了变量,函数,条件判断,循环等开发语言的功能。

2024-06-20 23:56:08 324

原创 Linux用户管理

Linux操作系统是一个多用户操作系统,它允许多用户同时登录到系统上并使用资源。系统会根据账户来区分每个用户的文件,进程,任务和工作环境,使得每个用户工作都不受干扰。

2024-06-20 23:52:42 337

原创 linux基础

Linux是一个性能稳定、功能强大、效率高、安全且内核开源的操作系统。其内核由当时还是芬兰赫尔辛基大学学生的林纳斯·本纳第克特·托瓦兹(Linus Benedict Torvalds)于1991年10月5日首次发布。

2024-06-20 23:50:05 686

原创 使用Hadoop完成对电商日志的分析-2

Hadoop是一个开源的分布式计算平台,能够对大量数据进行高效的存储和处理。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce计算模型。通过Hadoop的MapReduce,我们实现了对电商日志文件的分析,包括统计页面浏览量和各省份的浏览量。ETL过程中,我们只解析出所需的字段,提高了数据处理的效率。在实际生产环境中,可以将这些MapReduce任务定时调度,定期处理增量日志数据,实现实时的数据分析和监控。

2024-06-20 23:34:31 828

原创 使用Hadoop完成对电商日志的分析-1

使用Hadoop完成对电商日志的分析-1一、项目要求根据电商日志文件进行以下分析:统计页面浏览量(每行记录就是一次浏览)。统计各个省份的浏览量(需要解析IP)。日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)。ETL目标: 解析出有价值的字段,包括:ip、url、pageId(topicId对应的页面Id)、country、province、city。二、技术背景1. Hadoop概述Hadoop是一个开源的

2024-06-20 23:32:38 396

原创 基于MapReduce实现手机流量统计

mapreduce实现手机流量分析

2024-06-20 21:07:04 231

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除