自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 Day14----Python超市电商数据分析(三)

本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。详细字段是:Row ID:行编号;Order ID:订单ID;Order Date:订单日期;Ship Date:发货日期;Ship Mode:发货模式;Customer ID:客户ID;Customer Name:客户姓名;Segment:客户类别;City:客户所在城市;State:客户城市所在州;Country:客户所在国家;Postal Code:邮编;

2024-06-21 08:00:00 685

原创 Day13----Python超市电商数据分析(二)

本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。详细字段是:Row ID:行编号;Order ID:订单ID;Order Date:订单日期;Ship Date:发货日期;Ship Mode:发货模式;Customer ID:客户ID;Customer Name:客户姓名;Segment:客户类别;City:客户所在城市;State:客户城市所在州;Country:客户所在国家;Postal Code:邮编;

2024-06-20 08:00:00 1283

原创 Day12----Python超市电商数据分析(一)

本案例将对某大型超市的零售数据进行数据分析,通过了解运营状况,做出合理的决策。详细字段是:Row ID:行编号;Order ID:订单ID;Order Date:订单日期;Ship Date:发货日期;Ship Mode:发货模式;Customer ID:客户ID;Customer Name:客户姓名;Segment:客户类别;City:客户所在城市;State:客户城市所在州;Country:客户所在国家;Postal Code:邮编;

2024-06-19 08:00:00 1579

原创 Day11----RDD算子

Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。​ RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。​ 分布式数据集是指:一个数据集存储在不同的

2024-06-18 08:00:00 696

原创 Day10----Spark RDD算子创建

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg。

2024-06-17 14:22:17 425

原创 Day9----Spark概述

​ 可以看到,在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算(Spark SQL),又可以做实时计算(Spark Streaming),它们底层都使用的是Spark的核心(Spark Core)。

2024-06-17 14:19:02 1564

原创 Day8----HBase基本操作

​ 总体上说,ZooKeeper提供了可靠的分布式协调服务,而HBase利用ZooKeeper来实现高可用性、数据一致性和元数据管理等功能,从而使得在大规模分布式环境下运行的HBase数据库更加稳定和可靠。(1)ZooKeeper为HBase提供了可靠的协调服务:HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。**注意:**修改数据后,其实只是在原来的基础上增加了一条数据,查询的时候返回了时间戳最新的一个版本,旧版本的数据还在;会发现删除的数据有Delete标注。

2024-06-14 08:34:40 248

原创 Day7----Hive基本操作

其中:WITH DBPROPERTIES ,用来指定数据属性数据。

2024-06-12 16:00:14 446

原创 Day6----电商实战项目实现3

根据电商日志文件,分析:1 . 统计页面浏览量(每行记录就是一次浏览)2 . 统计各个省份的浏览量 (需要解析IP)3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-12 00:01:13 272

原创 Day5----电商实战项目实现2

根据电商日志文件,分析:1 . 统计页面浏览量(每行记录就是一次浏览)2 . 统计各个省份的浏览量 (需要解析IP)3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-11 23:53:42 426

原创 Day4----电商实战项目实现

根据电商日志文件,分析:1 . 统计页面浏览量(每行记录就是一次浏览)2 . 统计各个省份的浏览量 (需要解析IP)3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。

2024-06-11 23:47:26 383

原创 Day3 学习笔记及成果---虚拟机中安装idea

【代码】Day3 学习笔记及成果---虚拟机中安装idea。

2024-06-07 00:01:50 143

原创 Day2 学习笔记及成果---基于MapReduce项目实现中所遇到的问题及解决方法

解决方案:可能的错误原因是网关设置有问题,虚拟机的网关应该和自己的网关一直,自己的网关可在 编辑-虚拟网络设置 中查看。首先执行命令查看网络配置信息。在NAT模式里设置的网关,两者必须一样,虚拟机才能成功ping通外网。

2024-06-05 21:24:04 473 1

原创 Day1 学习笔记及成果---MapReduce实现手机流量统计分析

MapReduce实战

2024-06-05 00:04:54 617 2

ComputerFrame.java

ComputerFrame.java

2022-05-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除