自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 电影智能推荐系统

​ 人们经常会在视频平台上观看影片,有时目标明确,想要观看某部电影,但有时仅仅是随机搜寻。​ 如果视频平台可以利用基于物品的智能推荐系统,有效地从用户对其观看过的电影的评分中挖掘数据,便可以根据用户偏好的电影个性化地推荐更多类似的电影,优化用户体验,提高用户粘性,创造额外收入。

2024-06-21 10:00:20 338

原创 相似度计算的常用方法

​ 使用两向量夹角θ的余弦值cosθ来表示两个向量的相似度,称为余弦相似度。余弦相似度的范围是:[-1,1],夹角越小,余弦值越接近于1,两个向量越靠近,两者越相似。r取值范围为[-1,1],为正代表两个变量存在正相关,为负代表两个变量存在负相关,r=0,说明两个变量之间无线性相关关系。​ 其中,<a,b>表示的是向量a和向量b的内积,||a||和||b||分别表示向量a和向量b的模(长度)。分别为变量X和变量Y的标准差,COV(X,Y)为变量X和变量Y的协方差。

2024-06-21 09:59:42 855

原创 协同·过滤算法

​ 原因二:用户的喜好较为多变,而物品属性较明确不随时间变化,过去用户对物品的评分长期有效,所以物品间的相似度比较固定,因此可以预先离线计算好物品间的相似度,把结果存在表中,向客户进行推荐时再使用。​ 如下表所示,用户1和用户2都给商品A,B,C打了高分,那么可以将用户1和用户2划分在同一个用户群体,此时若用户2还给商品D打了高分,那么就可以将商品D推荐给用户1。​ 根据用户群体对产品偏好的数据,发现用户之间的相似性或者物品之间的相似性,并基于这些相似性为用户作推荐。

2024-06-21 09:57:59 267

原创 关联规则分析与Apriori算法

​ 关联规则分析的最终目标是要找出强关联规则,从而实现对目标客户的商品推荐。Apriori算法是最著名的关联规则的挖掘算法之一,其核心是一种递推算法。使用apyori库可以非常方便地实现Apriori算法,从而快速得到强关联规则。安装方法:!​ 中医病案的各种症状是一个错综复杂的整体,但其中也有着密不可分的联系。通过对中医病症之间关系的分析,从而认识疾病的发生发展规律,掌握疾病的诊疗特点,并且获得治疗疾病的最适宜药方。

2024-06-20 10:30:48 616

原创 Spark运行模式

唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。为了防止出错,建议此处将该选项配置上。

2024-06-20 10:23:10 1018

原创 Spark RDD概述

​ Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。​ RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。​ 分布式数据集是指:一个数据集存储在不同的节点上,每个节点存储数据集的一部分。

2024-06-20 10:18:14 286

原创 Spark概述

​ 可以看到,在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算(Spark SQL),又可以做实时计算(Spark Streaming),它们底层都使用的是Spark的核心(Spark Core)。

2024-06-20 10:17:19 419

原创 ZooKeeper

​ ZooKeeper是一个树形目录服务,每一个节点都被称为ZNode,每个节点。上都会保存自己的数据和节点信息。节点可以拥有子节点,同时也允许少量。(1MB)数据存储在该节点上。

2024-06-20 10:13:22 403

原创 Zookeeper安装

进入/export/software目录下,将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群,现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录:dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。

2024-06-20 10:11:26 142

原创 HBase基本操作演示

​ 总体上说,ZooKeeper提供了可靠的分布式协调服务,而HBase利用ZooKeeper来实现高可用性、数据一致性和元数据管理等功能,从而使得在大规模分布式环境下运行的HBase数据库更加稳定和可靠。(1)ZooKeeper为HBase提供了可靠的协调服务:HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。**注意:**修改数据后,其实只是在原来的基础上增加了一条数据,查询的时候返回了时间戳最新的一个版本,旧版本的数据还在;会发现删除的数据有Delete标注。

2024-06-20 10:09:58 375

原创 HBase理论

​ HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。

2024-06-20 10:09:34 377

原创 Hadoop手机号流量统计

自定义数据类型Access类的实现让我对Hadoop的序列化机制有了更深入的理解。为了在MapReduce中传递自定义数据类型,我们需要实现Writable接口并覆写write和readFields方法。这个过程让我意识到,数据序列化和反序列化在分布式计算中是非常关键的步骤。在实现过程中,我还学到了如何重写toString方法,以便更好地展示数据内容。这不仅方便调试,还可以帮助我们更直观地理解数据处理过程。

2024-06-12 09:09:23 258

原创 Hadoop手机号流量统计(3)

【代码】Hadoop手机号流量统计(3)

2024-06-12 09:08:50 644

原创 Hadoop手机号流量统计(2)

Access类包括手机号、上行流量、下行流量、总流量四个属性:​​​​​​​@Override。

2024-06-12 09:06:44 640

原创 Hadoop项目:手机号流量统计 - 进行中

项目准备阶段

2024-06-05 10:03:34 856 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除