自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 HBase基本介绍

​ HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。

2024-06-22 08:54:19 266

原创 HBase基本操作演示

​ 总体上说,ZooKeeper提供了可靠的分布式协调服务,而HBase利用ZooKeeper来实现高可用性、数据一致性和元数据管理等功能,从而使得在大规模分布式环境下运行的HBase数据库更加稳定和可靠。(1)ZooKeeper为HBase提供了可靠的协调服务:HBase使用ZooKeeper来进行集群中各个节点之间的通信和协调。**注意:**修改数据后,其实只是在原来的基础上增加了一条数据,查询的时候返回了时间戳最新的一个版本,旧版本的数据还在;会发现删除的数据有Delete标注。

2024-06-22 08:43:16 306

原创 Hive基本操作

针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。​ 创建外部表需要使用EXTERNAL关键字,当删除外部表的时候,只删除元。​ 内部表又称受控表,当删除内部表的时候,存储在文件系统上的数据(例。​ 使用场景,例如:某个公司的原始日志数据存放在一个目录中,多个部。分区字段在源文件中是。​ 使用场景:可以通过分区表,将每天搜集的数据进行区分,查询统计的时。分区表可以是内部表,也可以是外部表。不存在的,需要在添加数据的时候手动指定。

2024-06-22 08:42:00 336

原创 Spark运行模式——Spark On YARN模式

2024-06-22 08:37:39 325

原创 Spark运行模式——Spark Standalone模式

​ Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。本地模式在提交应用程序后,将会在本地生成一个名为SparkSubmit的进程,该进程既负责程序的提交,又负责任务的分配、执行和监控等。​ 集群的主节点称为Master节点,在集群启动时会在主节点启动一个名为Master的守护进程;

2024-06-22 08:29:53 561

原创 基于Langchain-chatchat搭建本地智能知识问答系统

富的数据科学工具和库,以及便捷的包管理和环境管理功能,使数据科学家和机器学习工程师能。的主要作用是简化数据科学项目的设置和管理。是一个强大的数据科学平台,它简化了数据科学项目的设置和管理,提供了丰。)的一个分支领域,专注于使计算机能够理解、解释和生成文本,从而让。, 创建一个虚拟环境,并在虚拟环境内安装项目的依赖。数据科学和机器学习平台,用于管理和部署数据科学项目。供了一个开发环境,其中包含了众多常用的数据科学工具和库,如。器,它能够帮助用户创建独立的 Python环境,以便。

2024-06-20 16:12:47 674

原创 Spark RDD实现分组求TopN

这会得到一个新的RDD,其中的元素是二元组,其中第一个元素是姓名,第二个元素是一个迭代器,包含与该姓名关联的所有成绩的二元组。该Scala代码使用了Apache Spark的RDD(弹性分布式数据集)API来处理一个文本文件,该文件包含按逗号分隔的姓名和成绩数据。因为每一行为一条数据,所以先构成(姓名,成绩)二元组,然后根据姓名进行分组,对组内数据按照降序排列,取前3个,最后按照输出语句打印结果。如果成绩是字符串形式的数字(例如"98","78"等),则需要确保它们是正确的数字格式以便进行准确的比较。

2024-06-19 15:39:06 919

原创 Hive安装、配置、启动

(8)拷贝mysql驱动jar 到/export/servers/apache-hive-3.1.3-bin/lib。(4)修改$HADOOP_HOME/etc/hadoop/core-site.xml 开启hadoop代理功能。(3)安装mysql-community-release-el7-5.noarch.rpm包。(5) 拷贝hive-env.sh.template模版配置文件为hive-env.sh。(9) 删除冲突的log4j(log4j-slf4j-impl-2.4.1.jar)

2024-06-18 16:39:55 272

原创 gitee大文件无法push到远程仓库

提示:如果文件路径包含空格,需要用引号将删除文件路径包含起来。删除已提交到本地仓库的大文件的提交记录,然后重新push。使用commit提交大文件无法推送到远程库的问题。大文件无法push到远程仓库。

2024-06-17 17:49:24 289

原创 ZooKeeper的安装及配置(linux)

进入/export/software目录下,将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。将下载的ZooKeeper放到/export/software目录下。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。

2024-06-14 14:12:39 310

原创 电商实战——Hadoop实现(3)

日志的ETL操作,本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。将java项目打包后,在Hadoop上运行jar包。统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)

2024-06-12 15:21:00 447

原创 电商实战——Hadoop实现(2)

读取日志文件的每一行,解析出IP地址,并可能通过外部IP地址库(如GeoIP)来查找对应的省份信息。将IP、省份和1(代表一次浏览)作为键值对输出。日志的ETL操作,本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。将java项目打包后,在Hadoop上运行jar包。统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)对相同省份的浏览量进行累加。

2024-06-12 15:05:42 257

原创 电商实战——Hadoop实现(1)

Transform(转换): 由于每行记录就是一次浏览,我们不需要复杂的转换。MapReduce的Mapper可以直接将每行作为一次浏览进行计数,并在Reducer中进行累加。日志的ETL操作,本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。Load(加载): 可以将最终的结果输出到HDFS上的一个文件,或者通过HBase、Hive等工具存储到数据库中。提供解析ip,映射成对应的国家、省份、城市的方法。

2024-06-12 14:49:59 763

原创 手机流量分析——Hadoop实现

统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。在该目录下使用hadoop调用该包,通过数据源文件,求出每个手机号的总上行流量、下行流量、总流量。(2) 根据(1)的手机号流量汇总结果再按照题目要求将不同的手机号进行分组输出到不同的文件中。(1) 通过数据源文件,首先求出每个手机号的总上行流量、下行流量、总流量。根据(1)的手机号流量汇总结果再按照不同的手机号进行分组输出到不同的文件中。

2024-06-05 15:42:26 990 3

手机流量分析-Hadoop实现

项目数据

2024-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除