自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Day 13-spark实习分组topN

Spark RDD实现分组求TopN。

2024-06-23 23:41:11 121

原创 Day 12-python文本挖掘数据分析

驱虫市场的潜力分析-结论. 整体驱虫市场处于快速增长阶段,趋向于成长期到成熟期灭鼠杀虫剂市场份额较大(大于60%),约是第二名蚊香液的二倍,市场增长率接近40%,可以认为是明星产品类目,需要持续投资和重点关注驱虫市场不存在垄断,结构不集中,竞争相对激烈,即没有明显的来自大公司的压力灭鼠杀虫剂市场机会点-业务逻辑灭鼠杀虫剂市场机会点-产品类别使用灭鼠杀虫剂细分市场数据(截止到2018年11月22日30天的交易数据):-读取五个文件并且合并。

2024-06-23 23:37:37 712

原创 Day 11-超市电商数据分析

本案例将对某大型超市的零售数据进行数据分析,通过了。Order Priority:订单优先级;Customer Name:客户姓名;Product Name:产品名称;Customer ID:客户ID;Order Date:订单日期;Product ID:产品ID;Ship Date:发货日期;Ship Mode:发货模式;Country:客户所在国家;Order ID:订单ID;State:客户城市所在州;Segment:客户类别;Region:商店所属州;Quantity:销售量;

2024-06-23 23:32:44 414

原创 Day 10-spark-sql

Spark SQL基础Spark SQL介绍​ Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。​ Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。与Hive不同的是,Hive是将SQL翻译成MapReduce作业,底层是基于MapReduce的;

2024-06-23 23:28:40 750

原创 Day 09-spark

Spark概述大数据开发的总体架构在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算(Spark SQL),又可以做实时计算(Spark Streaming),它们底层都使用的是Spark的核心(Spark Core)。Spark初识。

2024-06-23 23:26:37 634

原创 Day 08-hbase基本介绍

基本介绍HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase的架构HMaster功能:1.监控 RegionServer2.处理 RegionServer 故障转移3.处理元数据的变更4.处理region 的分配或移除5.在空闲时间进行数据的负载均衡6.通过 Zookeeper 发布自己的位置给客户端功能:1.负责存储 HBase 的实际数据2.处理分配给它的 Region。

2024-06-23 15:30:49 714

原创 Day 07-zookeeper

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件(HA搭建)。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:分布式配置同步、域名服务(统一域名 负载均衡)、分布式同步、组服务(集群管理)等。ZooKeeper是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户zookeeper提供的功能。

2024-06-23 15:26:33 950

原创 Day 06-hive介绍与使用

数据仓库,英文名称为Data Warehouse,可简写为DW。是一个用于存储,分析,报告的数据系统.数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持.通过上图我们可以发现,数据仓库的定位很明确,就是面向分析,支持分析的的系统,这种系统我们称为OLAP(on-Line Analytic Processing 联机分析处理系统).

2024-06-23 15:20:38 785

原创 Day 05-电商指标分析

电商数据分析涉及多个指标,这些指标可以帮助企业了解其业务表现、用户行为和市场趋势。

2024-06-23 15:16:05 895

原创 Day 04-Git版本控制

开发中实际场景版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。简单说就是用于管理多人协同开发项目的技术。

2024-06-23 15:08:47 687

原创 Day 02-hadoop安装配置

配置mapred-site.xml文件 添加到resources目录下。修改提交任务的代码 maven打jar包的命令为 package。etc/hadoop/目录下 yarn-site.xml文件。etc 主要是一些Hadoop配置文件。创建Maven项目,添加Hadoop依赖.bin 主要是一些可执行文件命令。启动成功后页面可以看到对应节点的信息。share 共享目录 帮助文档。sbin 超级命令 集群启动。

2024-06-23 15:03:44 146

原创 Day 01-手机流量统计

Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据集。在Hadoop中进行手机流量日志分析项目,主要是为了收集、处理和分析移动设备产生的海量网络流量数据。

2024-06-23 14:57:35 309

原创 Day 14-热点搜索词统计

根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。

2024-06-10 12:12:49 523

原创 spark环境的搭建

spark环境快速搭建

2024-06-10 11:54:49 596

原创 Day 03-电商日志分析项目

电商日志分析,根据电商用户日志,提取关键信息,用作分析,提供决策数据

2024-06-06 10:08:25 825

原创 实验五 MapReduce初级编程实战

大数据技术与原理第三版,林子雨

2023-11-05 15:36:27 635

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除