自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 【大数据实训日记】Day14 协同过滤算法

​ 人们经常会在视频平台上观看影片,有时目标明确,想要观看某部电影,但有时仅仅是随机搜寻。​ 如果视频平台可以利用基于物品的智能推荐系统,有效地从用户对其观看过的电影的评分中挖掘数据,便可以根据用户偏好的电影个性化地推荐更多类似的电影,优化用户体验,提高用户粘性,创造额外收入。

2024-06-20 20:39:42 583

原创 【大数据实训日记】Day13 超市电商数据分析

RFM是一个经典的客户分群模型,含义如下:客户最近一次消费时间客户消费的频次消费金额客户价值类型:重要价值客户:RFM3个值都很高,是平台重点维护的客户重要保持客户:最近一次消费时间较远,消费金额和消费频 次比较高重要发展客户:最近有消费,且整体消费金额高,但是购买不频繁重要挽留客户:消费金额较高,消费频次偏低,而且已经很 久没有消费行为了一般价值客户:多次频繁购买,但是购买的商品价格都较低一般保持客户:频繁浏览,但是很久没有成交了。

2024-06-17 14:58:55 493

原创 【大数据实训日记】Day12 超市电商数据分析(读取、清洗数据及数据分析)

由于上述透视表的人数和远远小于总的记录数,说明超市对保持老客户较为有效 ,也间接说明了超市的运营状况较为稳定;还可以发现,2011-2014年每年的新增客户数呈逐年减少的趋势,新客户获取率比较低,因此,可以进行主动推广营销,从而增加新客户数;由上面可知,各类型的消费者的销售额在逐步上升,其中以普通消费者的销售额最多, 可能是因为普通消费者最多的缘故。地区以外,各大地区销售额都比较 高的是电子产品,可 以适当加大对各地区(除Canada。都是唯一的,根据此数据再通过年、月进行分组,通过透视表分析新老客户数。

2024-06-17 14:50:39 1434

原创 【大数据实训日记】Day11 Spark SQL整合Hive

​ Hive是一个基于Hadoop的数据仓库架构,使用SQL语句读、写和管理大型分布式数据集。Hive可以将SQL语句转化为MapReduce(或Apache Spark、Apache Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。可以将Hive理解为一个客户端工具,它提供了一种类SQL查询语言,称为HiveQL。这使得Hive十分适合数据仓库的统计分析,能够轻松使用HiveQL开启数据仓库任务,如提取/转换/加载(ETL)、分析报告和数据分析。

2024-06-17 14:26:34 450

原创 【大数据实训日记】Day10 Spark SQL基础

​ 当Spark SQL提供的内置函数不能满足查询需求时,用户可以根据需求编写自定义函数(User Defined Functions, UDF),然后在Spark SQL中调用。​ 例如有这样一个需求:为了保护用户的隐私,当查询数据的时候,需要将用户手机号的中间4位数字用星号(*)代替,比如手机号180****2688。/*** 用户自定义函数,隐藏手机号中间4位*///创建或得到SparkSession//第一步:创建测试数据(或直接从文件中读取)//模拟数据。

2024-06-17 14:21:54 544

原创 【大数据实训日记】Day9 Scala基础

Scala是一种将面向对象和函数式编程结合在一起的高级语言,旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大,不仅可以编写简单脚本,还可以构建大型系统。Scala运行于Java平台,Scala程序会通过JVM被编译成class字节码文件,然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下,并且Scala代码可以调用Java方法、继承Java类、实现Java接口等,几乎所有Scala代码都大量使用了Java类库。

2024-06-14 09:04:46 1045

原创 【大数据实训日记】Day8 Hive基本操作

**注意:**创建表时若不指定库名,则默认在default库下创建表,创建表需要至少指定一个列族

2024-06-13 15:26:45 915

原创 【大数据实训日记】Day7 Hive安装

Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。二、使用Hive的原因- Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员处理大数据的难度- 以MR 作为计算引擎(也可选择Spark计算引擎)、HDFS 作为存储系统,为超大数据集设计的计算/ 扩展能力。

2024-06-13 15:23:44 598

原创 【大数据实训日记】Day6 HBase理论及基本操作

列式存储

2024-06-13 13:44:28 531

原创 【大数据实训日记】Day5 Zookeeperan安装及基本操作

ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。

2024-06-13 11:35:37 302

原创 【大数据实训日记】Day4 电商日志数据分析项目

这里我们需要提取每一条数据中的ip、url、pageId、contry、province、city字段。contry、province 和 city 通过定义的工具类进行处理后得到。为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。3. 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)

2024-06-12 16:18:53 259

原创 【大数据实训日记】Day3 电商日志数据分析项目(问题2)

3. 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)我们需要提取每一条数据中的ip,在Map阶段使用ip解析的工具类,将每个ip对应到所属省份,将未知ip。,得到的省份作为键,值设置为1。Reduce阶段合并相同的键并将对应值求和。1. 统计页面浏览量(每行记录就是一次浏览)2. 统计各个省份的浏览量 (需要解析IP)3.LogParser类。1.IPParser类。2.IPSeeker类。2.Reduce阶段。

2024-06-12 15:49:25 417

原创 【大数据实训日记】Day2 电商日志数据分析项目

3. 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)Map阶段,对于每一条数据,设置一个默认键(只用于标记该行),值设置为1。Reduce阶段,获得所有的值的和即可。1. 统计页面浏览量(每行记录就是一次浏览)2. 统计各个省份的浏览量 (需要解析IP)2.Reduce阶段。

2024-06-12 15:37:53 145

原创 【大数据实训日记】Day1 手机流量统计项目

org.apache.hadoop.mapreduce.Partitioner 类,其余手机号交给第三个 ReduceTask任务处理,最终输出到。根据手机号进行分组,然后把该手机号对应的上下行流量加 起来。把手机号、上行流量、下行流量拆开 ,把手机号作为key。统计每个手机号上行流量和、下行流量和、总流量和(上。包括属性:手机号、上行流量、下行流量、总流量。进行区分,并输出到不同的输出文件中去。对每个手机号的流量进行汇总,该行手机号的 下行流量)任务处理,最终输出到0。开头的手机号交给第二个。

2024-06-04 17:40:32 320 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除