DT-熊-CSDN博客

原创 Day 13-spark实习分组topN

Spark RDD实现分组求TopN。

2024-06-23 23:41:11 291

驱虫市场的潜力分析-结论. 整体驱虫市场处于快速增长阶段,趋向于成长期到成熟期灭鼠杀虫剂市场份额较大(大于60%),约是第二名蚊香液的二倍,市场增长率接近40%,可以认为是明星产品类目,需要持续投资和重点关注驱虫市场不存在垄断,结构不集中,竞争相对激烈,即没有明显的来自大公司的压力灭鼠杀虫剂市场机会点-业务逻辑灭鼠杀虫剂市场机会点-产品类别使用灭鼠杀虫剂细分市场数据(截止到2018年11月22日30天的交易数据):-读取五个文件并且合并。

2024-06-23 23:37:37 1096

原创 Day 11-超市电商数据分析

本案例将对某大型超市的零售数据进行数据分析，通过了。Order Priority:订单优先级；Customer Name:客户姓名；Product Name:产品名称；Customer ID:客户ID；Order Date:订单日期；Product ID:产品ID；Ship Date:发货日期；Ship Mode:发货模式；Country:客户所在国家；Order ID:订单ID；State:客户城市所在州；Segment:客户类别；Region:商店所属州；Quantity:销售量；

2024-06-23 23:32:44 579

原创 Day 10-spark-sql

Spark SQL基础Spark SQL介绍 Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。与Hive不同的是，Hive是将SQL翻译成MapReduce作业，底层是基于MapReduce的；

2024-06-23 23:28:40 963

原创 Day 09-spark

Spark概述大数据开发的总体架构在数据计算层，作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算（当然也可以编写独立的MapReduce应用程序进行计算）；而Spark既可以做离线计算（Spark SQL），又可以做实时计算（Spark Streaming），它们底层都使用的是Spark的核心（Spark Core）。Spark初识。

2024-06-23 23:26:37 1031

原创 Day 08-hbase基本介绍

基本介绍HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。HBase的架构HMaster功能：1.监控 RegionServer2.处理 RegionServer 故障转移3.处理元数据的变更4.处理region 的分配或移除5.在空闲时间进行数据的负载均衡6.通过 Zookeeper 发布自己的位置给客户端功能：1.负责存储 HBase 的实际数据2.处理分配给它的 Region。

2024-06-23 15:30:49 787

原创 Day 07-zookeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件(HA搭建)。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：分布式配置同步、域名服务(统一域名负载均衡)、分布式同步、组服务(集群管理)等。ZooKeeper是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户zookeeper提供的功能。

2024-06-23 15:26:33 1167

原创 Day 06-hive介绍与使用

数据仓库，英文名称为Data Warehouse，可简写为DW。是一个用于存储,分析,报告的数据系统.数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持.通过上图我们可以发现,数据仓库的定位很明确,就是面向分析,支持分析的的系统,这种系统我们称为OLAP(on-Line Analytic Processing 联机分析处理系统).

2024-06-23 15:20:38 947

原创 Day 05-电商指标分析

电商数据分析涉及多个指标，这些指标可以帮助企业了解其业务表现、用户行为和市场趋势。

2024-06-23 15:16:05 1332

原创 Day 04-Git版本控制

开发中实际场景版本控制（Revision control）是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史，方便查看更改历史记录，备份以便恢复以前的版本的软件工程技术。简单说就是用于管理多人协同开发项目的技术。

2024-06-23 15:08:47 1022

原创 Day 02-hadoop安装配置

配置mapred-site.xml文件添加到resources目录下。修改提交任务的代码 maven打jar包的命令为 package。etc/hadoop/目录下 yarn-site.xml文件。etc 主要是一些Hadoop配置文件。创建Maven项目,添加Hadoop依赖.bin 主要是一些可执行文件命令。启动成功后页面可以看到对应节点的信息。share 共享目录帮助文档。sbin 超级命令集群启动。

2024-06-23 15:03:44 246