何辞西风去-CSDN博客

原创【大数据实训日记】Day14 协同过滤算法

人们经常会在视频平台上观看影片，有时目标明确，想要观看某部电影，但有时仅仅是随机搜寻。如果视频平台可以利用基于物品的智能推荐系统，有效地从用户对其观看过的电影的评分中挖掘数据，便可以根据用户偏好的电影个性化地推荐更多类似的电影，优化用户体验，提高用户粘性，创造额外收入。

2024-06-20 20:39:42 839

RFM是一个经典的客户分群模型，含义如下：客户最近一次消费时间客户消费的频次消费金额客户价值类型：重要价值客户：RFM3个值都很高，是平台重点维护的客户重要保持客户：最近一次消费时间较远，消费金额和消费频次比较高重要发展客户：最近有消费，且整体消费金额高，但是购买不频繁重要挽留客户：消费金额较高，消费频次偏低，而且已经很久没有消费行为了一般价值客户：多次频繁购买，但是购买的商品价格都较低一般保持客户：频繁浏览，但是很久没有成交了。

2024-06-17 14:58:55 800

原创【大数据实训日记】Day12 超市电商数据分析(读取、清洗数据及数据分析)

由于上述透视表的人数和远远小于总的记录数，说明超市对保持老客户较为有效，也间接说明了超市的运营状况较为稳定；还可以发现，2011-2014年每年的新增客户数呈逐年减少的趋势，新客户获取率比较低，因此，可以进行主动推广营销，从而增加新客户数；由上面可知，各类型的消费者的销售额在逐步上升，其中以普通消费者的销售额最多，可能是因为普通消费者最多的缘故。地区以外，各大地区销售额都比较高的是电子产品，可以适当加大对各地区（除Canada。都是唯一的，根据此数据再通过年、月进行分组，通过透视表分析新老客户数。

2024-06-17 14:50:39 1909

原创【大数据实训日记】Day11 Spark SQL整合Hive

Hive是一个基于Hadoop的数据仓库架构，使用SQL语句读、写和管理大型分布式数据集。Hive可以将SQL语句转化为MapReduce（或Apache Spark、Apache Tez）任务执行，大大降低了Hadoop的使用门槛，减少了开发MapReduce程序的时间成本。可以将Hive理解为一个客户端工具，它提供了一种类SQL查询语言，称为HiveQL。这使得Hive十分适合数据仓库的统计分析，能够轻松使用HiveQL开启数据仓库任务，如提取／转换／加载（ETL）、分析报告和数据分析。

2024-06-17 14:26:34 638

原创【大数据实训日记】Day10 Spark SQL基础

当Spark SQL提供的内置函数不能满足查询需求时，用户可以根据需求编写自定义函数（User Defined Functions, UDF），然后在Spark SQL中调用。例如有这样一个需求：为了保护用户的隐私，当查询数据的时候，需要将用户手机号的中间4位数字用星号（*）代替，比如手机号180****2688。/*** 用户自定义函数，隐藏手机号中间4位*///创建或得到SparkSession//第一步：创建测试数据（或直接从文件中读取）//模拟数据。

2024-06-17 14:21:54 762

原创【大数据实训日记】Day9 Scala基础

Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。Scala运行于Java平台，Scala程序会通过JVM被编译成class字节码文件，然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下，并且Scala代码可以调用Java方法、继承Java类、实现Java接口等，几乎所有Scala代码都大量使用了Java类库。

2024-06-14 09:04:46 1248

原创【大数据实训日记】Day8 Hive基本操作

**注意：**创建表时若不指定库名，则默认在default库下创建表，创建表需要至少指定一个列族

2024-06-13 15:26:45 1011

原创【大数据实训日记】Day7 Hive安装

Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL（hiveSQL）语句作为数据访问接口。二、使用Hive的原因- Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容，大大降低了传统数据分析人员处理大数据的难度- 以MR 作为计算引擎（也可选择Spark计算引擎）、HDFS 作为存储系统，为超大数据集设计的计算/ 扩展能力。

2024-06-13 15:23:44 753

原创【大数据实训日记】Day6 HBase理论及基本操作

列式存储

2024-06-13 13:44:28 671

原创【大数据实训日记】Day5 Zookeeperan安装及基本操作

ZooKeeper服务器是用Java创建的，它运行在JVM之上。需要安装JDK 7或更高版本。

2024-06-13 11:35:37 393

原创【大数据实训日记】Day4 电商日志数据分析项目

这里我们需要提取每一条数据中的ip、url、pageId、contry、province、city字段。contry、province 和 city 通过定义的工具类进行处理后得到。为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。3. 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）

2024-06-12 16:18:53 455 1

m0_74606894的博客