- 博客(15)
- 收藏
- 关注
原创 协同过滤算法
人们经常会在视频平台上观看影片,有时目标明确,想要观看某部电影,但有时仅仅是随机搜寻。 如果视频平台可以利用基于物品的智能推荐系统,有效地从用户对其观看过的电影的评分中挖掘数据,便可以根据用户偏好的电影个性化地推荐更多类似的电影,优化用户体验,提高用户粘性,创造额外收入。
2024-06-20 09:44:11 1660
原创 关联规则分析与Apriori
关联规则分析的最终目标是要找出强关联规则,从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一,其核心是一种递推算法。使用apyori库可以非常方便地实现Apriori算法,从而快速得到强关联规则。安装方法:!
2024-06-20 09:38:14 760
原创 超市电商数据分析
可以是’nunique’, ‘sum’, ‘mean’, ‘median’, ‘count’, ‘min’, 'max’等,或者自定义函数,甚至是这些函数的字典,比如{column1: np.sum, column2: np.mean}针对不同列应用不同函数。由于透视表的结构(月份为索引,年份为列),pandas会自动为每一列(即每个年份)绘制一条折线,横轴为月份,纵轴为销售额,从而直观展示不同年份每月销售额的变化趋势。当margins=True时,此参数指定边缘总计的列或行标签,默认为"All"。
2024-06-20 09:14:16 643
原创 Spark RDD
Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。 分布式数据集是指:一个数据集存储在不同的节点上,每个节点存储数据集的一部分。
2024-06-17 15:45:39 1469
原创 SparkCore
Spark的主要特点快速 MapReduce主要包括Map和Reduce两种操作,且将多个任务的中间结果存储于HDFS中。与MapReduce相比,Spark可以支持包括Map和Reduce在内的多种操作,这些操作相互连接形成一个有向无环图(Directed Acyclic Graph, DAG),各个操作的中间数据会被保存在内存中。因此,Spark处理速度比MapReduce更快。易用 Spark可以使用Java、Scala、Python、R和SQL快速编写应用程序。
2024-06-17 15:41:29 1580
原创 Spark SQL
Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。与Hive不同的是,Hive是将SQL翻译成MapReduce作业,底层是基于MapReduce的;
2024-06-17 15:16:52 675
原创 Scala基础
1、下载Scala到Scala官网https://www.scala-lang.org/download/下载Linux安装包scala-2.12.7.tgz解压到指定目录:2、配置环境变量PATHPATH3、测试CMD中执行scala -version命令。
2024-06-17 14:53:35 756
原创 HBase基本操作
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2024-06-15 08:00:00 723
原创 hive的相关操作
使用场景,例如:某个公司的原始日志数据存放在一个目录中,多个部门对这些原始数据进行分析,那么创建外部表就是比较好的选择了,因为即使删除了外部表,原始数据并不会被删除。 内部表又称受控表,当删除内部表的时候,存储在文件系统上的数据(例如HDFS上的数据)和元数据都会被删除。 使用场景:可以通过分区表,将每天搜集的数据进行区分,查询统计的时候通过指定分区,提高查询效率。 创建外部表需要使用EXTERNAL关键字,当删除外部表的时候,只删除元数据,不删除数据。
2024-06-14 19:00:00 339
原创 Hbase的基本介绍与安装配置
HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。
2024-06-14 10:59:00 282
原创 Hive的安装配置与常用命令
Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。
2024-06-14 10:40:07 556
原创 Zookeeper安装与配置
ZooKeeper(动物园管理员)是一个分布式的、开源的分布式应用程序的协调服务框架,简称zk。ZooKeeper是Apache Hadoop 项目下的一个子项目,是一个树形目录服务。提示:以下是本篇文章正文内容,下面案例可供参考。
2024-06-14 10:32:37 436
原创 电商日志数据分析
根据电商日志文件,分析:1 . 统计页面浏览量(每行记录就是一次浏览)2 . 统计各个省份的浏览量 (需要解析IP)3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。
2024-06-11 23:59:37 297
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人