- 博客(16)
- 收藏
- 关注
原创 Day 12-python文本挖掘数据分析
驱虫市场的潜力分析-结论. 整体驱虫市场处于快速增长阶段,趋向于成长期到成熟期灭鼠杀虫剂市场份额较大(大于60%),约是第二名蚊香液的二倍,市场增长率接近40%,可以认为是明星产品类目,需要持续投资和重点关注驱虫市场不存在垄断,结构不集中,竞争相对激烈,即没有明显的来自大公司的压力灭鼠杀虫剂市场机会点-业务逻辑灭鼠杀虫剂市场机会点-产品类别使用灭鼠杀虫剂细分市场数据(截止到2018年11月22日30天的交易数据):-读取五个文件并且合并。
2024-06-23 23:37:37 989
原创 Day 11-超市电商数据分析
本案例将对某大型超市的零售数据进行数据分析,通过了。Order Priority:订单优先级;Customer Name:客户姓名;Product Name:产品名称;Customer ID:客户ID;Order Date:订单日期;Product ID:产品ID;Ship Date:发货日期;Ship Mode:发货模式;Country:客户所在国家;Order ID:订单ID;State:客户城市所在州;Segment:客户类别;Region:商店所属州;Quantity:销售量;
2024-06-23 23:32:44 443
原创 Day 10-spark-sql
Spark SQL基础Spark SQL介绍 Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。与Hive不同的是,Hive是将SQL翻译成MapReduce作业,底层是基于MapReduce的;
2024-06-23 23:28:40 857
原创 Day 09-spark
Spark概述大数据开发的总体架构在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算(Spark SQL),又可以做实时计算(Spark Streaming),它们底层都使用的是Spark的核心(Spark Core)。Spark初识。
2024-06-23 23:26:37 890
原创 Day 08-hbase基本介绍
基本介绍HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。HBase的架构HMaster功能:1.监控 RegionServer2.处理 RegionServer 故障转移3.处理元数据的变更4.处理region 的分配或移除5.在空闲时间进行数据的负载均衡6.通过 Zookeeper 发布自己的位置给客户端功能:1.负责存储 HBase 的实际数据2.处理分配给它的 Region。
2024-06-23 15:30:49 723
原创 Day 07-zookeeper
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件(HA搭建)。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:分布式配置同步、域名服务(统一域名 负载均衡)、分布式同步、组服务(集群管理)等。ZooKeeper是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户zookeeper提供的功能。
2024-06-23 15:26:33 1005
原创 Day 06-hive介绍与使用
数据仓库,英文名称为Data Warehouse,可简写为DW。是一个用于存储,分析,报告的数据系统.数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持.通过上图我们可以发现,数据仓库的定位很明确,就是面向分析,支持分析的的系统,这种系统我们称为OLAP(on-Line Analytic Processing 联机分析处理系统).
2024-06-23 15:20:38 807
原创 Day 04-Git版本控制
开发中实际场景版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。简单说就是用于管理多人协同开发项目的技术。
2024-06-23 15:08:47 905
原创 Day 02-hadoop安装配置
配置mapred-site.xml文件 添加到resources目录下。修改提交任务的代码 maven打jar包的命令为 package。etc/hadoop/目录下 yarn-site.xml文件。etc 主要是一些Hadoop配置文件。创建Maven项目,添加Hadoop依赖.bin 主要是一些可执行文件命令。启动成功后页面可以看到对应节点的信息。share 共享目录 帮助文档。sbin 超级命令 集群启动。
2024-06-23 15:03:44 182
原创 Day 01-手机流量统计
Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据集。在Hadoop中进行手机流量日志分析项目,主要是为了收集、处理和分析移动设备产生的海量网络流量数据。
2024-06-23 14:57:35 332
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人