Makka Pakka Y-CSDN博客

原创协同过滤算法

人们经常会在视频平台上观看影片，有时目标明确，想要观看某部电影，但有时仅仅是随机搜寻。如果视频平台可以利用基于物品的智能推荐系统，有效地从用户对其观看过的电影的评分中挖掘数据，便可以根据用户偏好的电影个性化地推荐更多类似的电影，优化用户体验，提高用户粘性，创造额外收入。

2024-06-20 09:44:11 1758

原创关联规则分析与Apriori

关联规则分析的最终目标是要找出强关联规则，从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一，其核心是一种递推算法。使用apyori库可以非常方便地实现Apriori算法，从而快速得到强关联规则。安装方法：!

2024-06-20 09:38:14 875

可以是’nunique’, ‘sum’, ‘mean’, ‘median’, ‘count’, ‘min’, 'max’等，或者自定义函数，甚至是这些函数的字典，比如{column1: np.sum, column2: np.mean}针对不同列应用不同函数。由于透视表的结构（月份为索引，年份为列），pandas会自动为每一列（即每个年份）绘制一条折线，横轴为月份，纵轴为销售额，从而直观展示不同年份每月销售额的变化趋势。当margins=True时，此参数指定边缘总计的列或行标签，默认为"All"。

2024-06-20 09:14:16 816

原创 Spark RDD

Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。这个数据集的全部或部分可以缓存在内存中，并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指：当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。分布式数据集是指：一个数据集存储在不同的节点上，每个节点存储数据集的一部分。

2024-06-17 15:45:39 1516

原创 SparkCore

Spark的主要特点快速 MapReduce主要包括Map和Reduce两种操作，且将多个任务的中间结果存储于HDFS中。与MapReduce相比，Spark可以支持包括Map和Reduce在内的多种操作，这些操作相互连接形成一个有向无环图(Directed Acyclic Graph, DAG)，各个操作的中间数据会被保存在内存中。因此，Spark处理速度比MapReduce更快。易用 Spark可以使用Java、Scala、Python、R和SQL快速编写应用程序。

2024-06-17 15:41:29 1654

原创 Spark SQL

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。与Hive不同的是，Hive是将SQL翻译成MapReduce作业，底层是基于MapReduce的；

2024-06-17 15:16:52 721

原创 Scala基础

1、下载Scala到Scala官网https://www.scala-lang.org/download/下载Linux安装包scala-2.12.7.tgz解压到指定目录：2、配置环境变量PATHPATH3、测试CMD中执行scala -version命令。

2024-06-17 14:53:35 864

原创 HBase基本操作

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-06-15 08:00:00 875

原创 hive的相关操作

使用场景，例如：某个公司的原始日志数据存放在一个目录中，多个部门对这些原始数据进行分析，那么创建外部表就是比较好的选择了，因为即使删除了外部表，原始数据并不会被删除。内部表又称受控表，当删除内部表的时候，存储在文件系统上的数据（例如HDFS上的数据）和元数据都会被删除。使用场景：可以通过分区表，将每天搜集的数据进行区分，查询统计的时候通过指定分区，提高查询效率。创建外部表需要使用EXTERNAL关键字，当删除外部表的时候，只删除元数据，不删除数据。

2024-06-14 19:00:00 382

原创 Hbase的基本介绍与安装配置

HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。

2024-06-14 10:59:00 391

原创 Hive的安装配置与常用命令

Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。

2024-06-14 10:40:07 724

原创 Zookeeper安装与配置

ZooKeeper（动物园管理员）是一个分布式的、开源的分布式应用程序的协调服务框架，简称zk。ZooKeeper是Apache Hadoop 项目下的一个子项目，是一个树形目录服务。提示：以下是本篇文章正文内容，下面案例可供参考。

2024-06-14 10:32:37 601

原创电商日志数据分析

根据电商日志文件，分析：1 . 统计页面浏览量（每行记录就是一次浏览）2 . 统计各个省份的浏览量（需要解析IP）3 . 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-11 23:59:37 364