Upsy Daisy z-CSDN博客

原创 Day14----Python超市电商数据分析(三)

本案例将对某大型超市的零售数据进行数据分析，通过了解运营状况，做出合理的决策。详细字段是：Row ID:行编号；Order ID:订单ID；Order Date:订单日期；Ship Date:发货日期；Ship Mode:发货模式；Customer ID:客户ID；Customer Name:客户姓名；Segment:客户类别；City:客户所在城市；State:客户城市所在州；Country:客户所在国家；Postal Code:邮编；

2024-06-21 08:00:00 685

原创 Day13----Python超市电商数据分析(二)

本案例将对某大型超市的零售数据进行数据分析，通过了解运营状况，做出合理的决策。详细字段是：Row ID:行编号；Order ID:订单ID；Order Date:订单日期；Ship Date:发货日期；Ship Mode:发货模式；Customer ID:客户ID；Customer Name:客户姓名；Segment:客户类别；City:客户所在城市；State:客户城市所在州；Country:客户所在国家；Postal Code:邮编；

2024-06-20 08:00:00 1283

原创 Day12----Python超市电商数据分析(一)

本案例将对某大型超市的零售数据进行数据分析，通过了解运营状况，做出合理的决策。详细字段是：Row ID:行编号；Order ID:订单ID；Order Date:订单日期；Ship Date:发货日期；Ship Mode:发货模式；Customer ID:客户ID；Customer Name:客户姓名；Segment:客户类别；City:客户所在城市；State:客户城市所在州；Country:客户所在国家；Postal Code:邮编；

2024-06-19 08:00:00 1579

原创 Day11----RDD算子

Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。这个数据集的全部或部分可以缓存在内存中，并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指：当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。分布式数据集是指：一个数据集存储在不同的

2024-06-18 08:00:00 696

原创 Day10----Spark RDD算子创建

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg。

2024-06-17 14:22:17 425

原创 Day9----Spark概述

可以看到，在数据计算层，作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算（当然也可以编写独立的MapReduce应用程序进行计算）；而Spark既可以做离线计算（Spark SQL），又可以做实时计算（Spark Streaming），它们底层都使用的是Spark的核心（Spark Core）。

2024-06-17 14:19:02 1564

原创 Day8----HBase基本操作

总体上说，ZooKeeper提供了可靠的分布式协调服务，而HBase利用ZooKeeper来实现高可用性、数据一致性和元数据管理等功能，从而使得在大规模分布式环境下运行的HBase数据库更加稳定和可靠。（1）ZooKeeper为HBase提供了可靠的协调服务：HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。**注意：**修改数据后，其实只是在原来的基础上增加了一条数据，查询的时候返回了时间戳最新的一个版本，旧版本的数据还在；会发现删除的数据有Delete标注。

2024-06-14 08:34:40 248

原创 Day7----Hive基本操作

其中：WITH DBPROPERTIES ，用来指定数据属性数据。

2024-06-12 16:00:14 446

原创 Day6----电商实战项目实现3

根据电商日志文件，分析：1 . 统计页面浏览量（每行记录就是一次浏览）2 . 统计各个省份的浏览量（需要解析IP）3 . 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-12 00:01:13 272

原创 Day5----电商实战项目实现2

根据电商日志文件，分析：1 . 统计页面浏览量（每行记录就是一次浏览）2 . 统计各个省份的浏览量（需要解析IP）3 . 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-11 23:53:42 426

原创 Day4----电商实战项目实现

根据电商日志文件，分析：1 . 统计页面浏览量（每行记录就是一次浏览）2 . 统计各个省份的浏览量（需要解析IP）3 . 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-11 23:47:26 383

原创 Day3 学习笔记及成果---虚拟机中安装idea

【代码】Day3 学习笔记及成果---虚拟机中安装idea。

2024-06-07 00:01:50 143

原创 Day2 学习笔记及成果---基于MapReduce项目实现中所遇到的问题及解决方法

解决方案：可能的错误原因是网关设置有问题，虚拟机的网关应该和自己的网关一直，自己的网关可在编辑-虚拟网络设置中查看。首先执行命令查看网络配置信息。在NAT模式里设置的网关，两者必须一样，虚拟机才能成功ping通外网。

2024-06-05 21:24:04 473 1

原创 Day1 学习笔记及成果---MapReduce实现手机流量统计分析

MapReduce实战

2024-06-05 00:04:54 617 2

m0_66098020的博客

原创 Day14----Python超市电商数据分析(三)

原创 Day13----Python超市电商数据分析(二)

原创 Day12----Python超市电商数据分析(一)

原创 Day11----RDD算子

原创 Day10----Spark RDD算子创建

原创 Day9----Spark概述

原创 Day8----HBase基本操作

原创 Day7----Hive基本操作

原创 Day6----电商实战项目实现3

原创 Day5----电商实战项目实现2

原创 Day4----电商实战项目实现

原创 Day3 学习笔记及成果---虚拟机中安装idea

原创 Day2 学习笔记及成果---基于MapReduce项目实现中所遇到的问题及解决方法

原创 Day1 学习笔记及成果---MapReduce实现手机流量统计分析

ComputerFrame.java

空空如也