自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 协同过滤算法

​ 人们经常会在视频平台上观看影片,有时目标明确,想要观看某部电影,但有时仅仅是随机搜寻。​ 如果视频平台可以利用基于物品的智能推荐系统,有效地从用户对其观看过的电影的评分中挖掘数据,便可以根据用户偏好的电影个性化地推荐更多类似的电影,优化用户体验,提高用户粘性,创造额外收入。

2024-06-20 09:44:11 1660

原创 关联规则分析与Apriori

​ 关联规则分析的最终目标是要找出强关联规则,从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一,其核心是一种递推算法。使用apyori库可以非常方便地实现Apriori算法,从而快速得到强关联规则。安装方法:!

2024-06-20 09:38:14 760

原创 超市电商数据分析

可以是’nunique’, ‘sum’, ‘mean’, ‘median’, ‘count’, ‘min’, 'max’等,或者自定义函数,甚至是这些函数的字典,比如{column1: np.sum, column2: np.mean}针对不同列应用不同函数。由于透视表的结构(月份为索引,年份为列),pandas会自动为每一列(即每个年份)绘制一条折线,横轴为月份,纵轴为销售额,从而直观展示不同年份每月销售额的变化趋势。当margins=True时,此参数指定边缘总计的列或行标签,默认为"All"。

2024-06-20 09:14:16 643

原创 Spark RDD

​ Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。​ RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。​ 分布式数据集是指:一个数据集存储在不同的节点上,每个节点存储数据集的一部分。

2024-06-17 15:45:39 1469

原创 SparkCore

Spark的主要特点快速​ MapReduce主要包括Map和Reduce两种操作,且将多个任务的中间结果存储于HDFS中。与MapReduce相比,Spark可以支持包括Map和Reduce在内的多种操作,这些操作相互连接形成一个有向无环图(Directed Acyclic Graph, DAG),各个操作的中间数据会被保存在内存中。因此,Spark处理速度比MapReduce更快。易用​ Spark可以使用Java、Scala、Python、R和SQL快速编写应用程序。

2024-06-17 15:41:29 1580

原创 Spark SQL

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。与Hive不同的是,Hive是将SQL翻译成MapReduce作业,底层是基于MapReduce的;

2024-06-17 15:16:52 675

原创 Scala基础

1、下载Scala到Scala官网https://www.scala-lang.org/download/下载Linux安装包scala-2.12.7.tgz解压到指定目录:2、配置环境变量PATHPATH3、测试CMD中执行scala -version命令。

2024-06-17 14:53:35 756

原创 HBase基本操作

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2024-06-15 08:00:00 723

原创 hive的相关操作

​ 使用场景,例如:某个公司的原始日志数据存放在一个目录中,多个部门对这些原始数据进行分析,那么创建外部表就是比较好的选择了,因为即使删除了外部表,原始数据并不会被删除。​ 内部表又称受控表,当删除内部表的时候,存储在文件系统上的数据(例如HDFS上的数据)和元数据都会被删除。​ 使用场景:可以通过分区表,将每天搜集的数据进行区分,查询统计的时候通过指定分区,提高查询效率。​ 创建外部表需要使用EXTERNAL关键字,当删除外部表的时候,只删除元数据,不删除数据。

2024-06-14 19:00:00 339

原创 Hbase的基本介绍与安装配置

HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。

2024-06-14 10:59:00 282

原创 Hive的安装配置与常用命令

Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。

2024-06-14 10:40:07 556

原创 Zookeeper安装与配置

ZooKeeper(动物园管理员)是一个分布式的、开源的分布式应用程序的协调服务框架,简称zk。ZooKeeper是Apache Hadoop 项目下的一个子项目,是一个树形目录服务。提示:以下是本篇文章正文内容,下面案例可供参考。

2024-06-14 10:32:37 436

原创 电商日志数据分析

根据电商日志文件,分析:1 . 统计页面浏览量(每行记录就是一次浏览)2 . 统计各个省份的浏览量 (需要解析IP)3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-11 23:59:37 297

原创 Hdoop集群启动出现的问题

手机流量分析

2024-06-05 23:03:13 119

原创 第一天做手机流量分析项目

手机流量统计项目的一些实现步骤

2024-06-04 23:35:03 262 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除