自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 收藏
  • 关注

原创 数据可视化(四):Pandas技术的高级操作案例,豆瓣电影数据也能轻松分析!

Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!

2024-04-18 23:33:10 1314 2

原创 数据可视化(三):Pandas技术的基本操作案例,让你快速掌握数据处理技术

红色在RGB颜色模式中所对应的值就是255,0,0;绿色在RGB颜色模式中所对应的值就是0,255,0;蓝色在RGB颜色模式中所对应的值就是0,0,255。获取用户输入的信息,编写代码定义一个复杂的dtype结构,数组元素包含三部分,分别为R、G、B的颜色值。dtype结构元素名称分别为R、G、B类型的无符号8位整型,输出颜色值数组。

2024-04-17 23:42:47 1186 1

原创 数据可视化(二):凯撒密码 和 Vigenere 密码,让你轻松学会数据信息加密解密技术

Python 实现-加密解密技术>Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!一、凯撒密码凯撒密码(Caesar cipher)是一种最简单且最广为人知的加密技术。它是一种替换式的密码,通过把字母移动固定数目的位置进行加密。凯撒密码通常又被称作恺撒移位密码或者凯撒加密法。凯撒密码的原理是:通过把字母表中的每一个字母

2024-04-16 13:37:19 957 2

原创 数据可视化(一):python技巧思路养成(快递柜单号,微软序列号生成技术,数据脱敏等)

编写一个 Python 程序,获取用户输入的字符串,使用 jieba 库进行分词后,统计给定字符串中各单词出现的次数,去除标点符号,如"," “.” " "。很多人喜欢玩扑克牌,现有一手好牌,牌及顺序为:[‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’, ‘10’, ‘J’, ‘Q’, ‘K’, ‘A’],请输入一个整数 n做为随机数种子,使用shuffle(x) 函数将牌序打乱,输出一个新的牌序。取件码的字符包括:数字0-9和字母A、B、C、D、E、F、G、H、I、J。

2024-04-15 18:26:48 2093 2

原创 数据分析案例(三):基于RFM分析的客户分群

在本次实验过程中,由于本人想要探究RFM-季度-数量之间的关系,而数据集是2010年12月1日到2011年12月9日的数据,导致在划分季度的时候,2011年12月的数据是4季度,2011年12月的数据也是4季度。这类群体的消费新近度高且订单金额高,但购买频率低,因此只要提升其购买频次,用户群体的贡献价值就会倍增。331(占比0.2):近期活跃高频低价值群体,企业应加强与他们的互动和沟通,提供个性化的优惠和推荐,深入分析他们的消费需求和习惯,并提供优质的客户服务,以维持和提升他们的消费价值和忠诚度。

2024-04-14 20:49:05 1954 3

原创 数据分析案例(二):学生成绩数据的预处理、探索性分析和可视化

实验1 学生成绩数据的预处理、探索性分析和可视化1. 有60名学生的两门课程成绩的数据文件(文件名分别为ReportCard1和ReporCard2),分别记录着学生的学号、性别以及不同课程的成绩。请将数据读入Pandas数据框,并做如下处理:1)将两个数据文件按学号合并为一个数据文件,得到包含所有课程成绩的数据文件。2)计算每个同学的各门课程的总成绩和平均成绩。3)将数据按总成绩的降序排序。4)按性别分别计算各门课程的平均成绩。5)按优、良、中、及格和不及格,对平均成绩进行分组。

2024-04-13 20:30:35 5096 8

原创 数据分析案例(一):地区收入的PCA主成分分析

pd.read_csv(path,encoding=编码格式),注意这里的编码是gb2312。导入基础数据操作库包,PCA、k-means 库包,数据可视化库包。df[字段名].astype(新类型)特征工程标转化,高维数据转化为低维数据。练习1 地区收入的PCA主成分分析。df[字段列表],提取数值型的数据。选择曲线开始变得平坦的点作为K值。散点图显示聚类簇和特征变量关系。(列和 / 非空个数)将k值确定为肘部“4”

2024-04-12 19:25:56 1032 1

原创 Spark重温笔记(五):SparkSQL进阶操作——迭代计算,开窗函数,结合多种数据源,UDF自定义函数

1-定义series函数2-pandas_udf自定义函数和类型,或者@pandas_udf3-将series数据源转化为dataframe格式import os# 当存在多个版本时,不指定很可能会导致出错print("普通的集合的基本series相乘:")# 提出问题:如果使用上面的方式仅仅可以处理单机版本的数据,对于分布式数据无法使用上述函数# 如何解决,这时候通过pandas_udf,将pandas的series或dataframe和Spark并行计算结合。

2024-03-26 22:35:36 1984 15

原创 Spark重温笔记(四):秒级处理庞大数据量的 SparkSQL 操作大全,能否成为你的工作备忘指南?

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。sparkSQL的四个特性1-易整合:将sql查询与spark程序无缝混合,可以使用java、scala、python、R等语言的API操作。2-统一的数据访问:以相同的方式连接到任何数据源。3-兼容hive: 支持Hive HQL的语法,兼容hive(元数据库、SQL语法、UDF、序列化、反序列化机制)。

2024-03-25 21:54:51 1548 4

原创 Spark重温笔记(三):Spark在企业中为什么能这么强?——持久化、Checkpoint机制、共享变量与内核调度原理全攻略“

今天是温习 Spark 的第 3 天啦!主要梳理了 Spark 核心数据结构:RDD(弹性分布式数据集),包括RDD持久化,checkpoint机制,spark两种共享变量以及spark内核调度原理,希望对大家有帮助!Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!

2024-03-24 19:27:20 848 4

原创 Flume温习笔记(一):想不想用Flume采集模板成为数据达人?一篇文章让你轻松上手!

最近在公司做 flume 业务的时候,和部门同事总结了一些技巧性配置文件,可以涵盖工作的 90% flume 数据采集业务,我看到网上好多都是付费的文章,因此想写一篇文章分享给大家,希望对大家有帮助!Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!

2024-03-23 16:50:56 665 6

原创 Spark重温笔记(二):快如闪电的大数据计算框架——你真的了解SparkCore的 RDD 吗?(包含企业级搜狗案例和网站点击案例)

最全面的SparkCore系列案例数据集1-分区列表:RDD是由一些列分区组成的2-计算函数3-依赖关系:比如reduceByKey依赖于map依赖于flatMap4-key-value的分区器:默认分区是hash分区,可以变更为range分区等5-位置优先性: 按照"移动数据不如移动计算"的理念,Spark在进行任务调度的时候,会尽可能选择那些存有数据的worker节点来进行任务计算。(数据本地性)

2024-03-22 17:47:25 1223 12

原创 Spark重温笔记(一):一分钟部署PySpark环境,轻松上手Spark配置

Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校。1-速度快:其一、Spark处理数据时,可以将中间处理结果数据存储到内存中其二、spark job调度以DAG方式,每个任务Task以线程Thread方式,而不是mapreduce以进程process方式2-易于使用:Spark 的版本已经更新到(截止日期2021.06.01),支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。

2024-03-21 21:57:52 3920 3

原创 flink重温笔记(十九): flinkSQL 顶层 API ——FlinkSQL 窗口(解决动态累积数据业务需求)

over:定义窗口长度on:用来分组(按时间间隔)或者排序(按行数)的时间字段as:别名,必须出现在后面的groupBy中例子:每隔5秒钟统计一次每个商品类型的销售总额new OrderInfo("电脑", 1000L, 100D),new OrderInfo("手机", 2000L, 200D),new OrderInfo("电脑", 3000L, 300D),new OrderInfo("手机", 4000L, 400D),

2024-03-17 13:38:05 1681 13

原创 flink重温笔记(十八): flinkSQL 顶层 API ——实时数据Table化(涵盖全面实用的 API )

喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!"2. 数据库操作3. 数据表操作4. 视图操作5. 分区操作6. 函数操作 ## 五、FlinkSQL 流处理1. 时间特性1.1 处理时间(Processing Time)简介:机器在本地生成的时间,不需要提取时间戳,也不需要水印!例子:文件系统建表总结:在建表的时候增加一列:,注意 timestamp 需要为 BIGINT 类型!例子:文件流转化为表总结:转化为表指定字段时,添加一列 1.2

2024-03-16 16:27:52 1854

原创 flink重温笔记(十七): flinkSQL 顶层 API ——SQLClient 及流批一体化

今天是学习 flink 的第 17 天啦!学习了 flinkSQL 的客户端工具 flinkSQL-client,主要是解决大数据领域数据计算避免频繁提交jar包,而是简单编写sql即可测试数据,文章中主要结合 hive,即编写 flinksql 可以操作 hive 中的数据表,以及流批一体化:kafak 将数据写入到 hive中,结合自己实验猜想和代码实践,总结了很多自己的理解和想法,希望和大家多多交流!

2024-03-15 15:42:11 1506

原创 flink重温笔记(十六): flinkSQL 顶层 API ——实时数据流结合外部系统

今天是学习 flink 的第 16 天啦!学习了 flinkSQL 与企业级常用外部系统结合,主要是解决大数据领域数据计算后,写入到文件,kafka,还是mysql等 sink 的问题,即数据计算完后保存到哪里的问题!结合自己实验猜想和代码实践,总结了很多自己的理解和想法,希望和大家多多交流!Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!

2024-03-14 18:12:43 1525 1

原创 flink重温笔记(十五): flinkSQL 顶层 API ——实时数据流转化为SQL表的操作

今天是学习 flink 的第 15 天啦!学习了 flinkSQL 基础入门,主要是解决大数据领域数据处理采用表的方式,而不是写复杂代码逻辑,学会了如何初始化环境,鹅湖将流数据转化为表数据,以及如何查询表数据,结合自己实验猜想和代码实践,总结了很多自己的理解和想法,希望和大家多多交流!Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!

2024-03-12 21:15:22 1910 3

原创 flink重温笔记(十四): flink 高级特性和新特性(3)——数据类型及 Avro 序列化

Avro 是数据序列化系统,支持大批量数据交换的应用。支持二进制序列化方式,性能好 / 效率高,使用 JSON 描述。动态语言友好,RPC 远程调用,支持同步和异步通信。namespace:要生成的目录type:类型 avro 需要指定 recordname:会自动生成的对象fields:要指定的字段注意: 创建的文件后缀名一定要叫avsc,而不是 avro 后缀,使用idea生成Order对象注意:由于在导入 pom 依赖的时候,需要注意插件冲突,注释掉以下依赖,不然会一直爆错!

2024-03-10 18:10:46 1261 2

原创 flink重温笔记(十三): flink 高级特性和新特性(2)——ProcessFunction API 和 双流 join

喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!"之前的转换算子是无法访问时间戳信息和水位线信息的,但 Process Function 可以访问时间戳,水位线,以及注册定时时间等,Flink SQL 就是使用 Process Function 实现的。KeyedProcessFunction 作为 ProcessFunction 的扩展,在其 onTimer(…) 方法中提供对定时器对应key的访问。所有的 Process Function 都继承自 RichFunction 接口

2024-03-09 22:46:40 1976 7

原创 flink重温笔记(十二): flink 高级特性和新特性(1)——End-to-End Exactly-Once(端到端精确一致性语义)

顺序:At most once(最多一次)< At least once(至少一次)< Exactly once(精确一次)< End to End Exactly once(端到端一次)最简单的恢复方式,直接从失败的下个数据恢复程序,丢失刚刚失败的数据。由于事件是可以重传的,可能造成数据重复。依赖 checkpoint 机制,回滚恢复数据,保持所有记录仅影响内部状态一次,即不考虑部分数据泄露到下游。Flink 应用从 Source 端开始到 Sink 端结束,保持所有记录影响内部和外部状态一次,即考虑部

2024-03-08 20:55:07 1609 4

原创 华为数通学习笔记(一):数据通信网络基础

在学习大数据的过程中,我发现很多地方需要用到网络知识点,由于我哥考取了华为数通 HCIE 证书,目前正在一家大公司担任技术负责人,因此借此机会我要向他学习这方面的知识点,希望能够拓宽自己的视野,进一步理解网络通信和部署,充实自己的知识体系,为自己大数据学习之路保驾护航!Tips:今天是学习的第一天,理解了一些术语概念,晚上要来做下教材上的实验,深刻体会一下网络部署的入门实验!

2024-03-07 19:14:39 5321 1

原创 flink重温笔记(十一):Flink 高级 API 开发——flink 四大基石之 Checkpoint(详解存储后端)

1- Flink 检查点机制,(协调者)定期在数据流上生成 checkpoint barrier;2- 当某个算子接收到barrier(数据栅栏) 时,会基于当前状态生成一份快照;3- 后将 barrier 传递给下游算子,依次快照并传递下去,直到 sink;4- 出现异常时,根据最近的快照数据,将所有算子恢复到之前状态;5-收到所有算子的报告后,才认为该周期快照成功。flink-conf.yaml 配置文件的 restart-strategy 配置参数决定重启策略。重启策略重启策略值。

2024-03-06 23:37:24 2514 3

原创 SQL技巧笔记(一):连续3人的连号问题—— LeetCode601.体育馆的人流量

我发现大数据招聘岗位上的应聘流程都是需要先进行笔试,其中占比很大的部分是SQL题目,经过一段时间的学习之后,今天开了一个力扣年会员,我觉得我很有必要去多练习笔试题目,这些题目是有技巧性的,很贴近生活!Tips:我很享受独自做出题目的感觉,也很喜欢和大家分享自己的思路!我会继续努力,遇到有趣的题目,独特的思路会和大家多多交流!

2024-03-05 22:41:44 694

原创 flink重温笔记(十):Flink 高级 API 开发——flink 四大基石之 State(涉及Checkpoint)

简介:State(状态)是基于 Checkpoint(检查点)来完成状态持久化,在 Checkpoint 之前,State 是在内存中(变量),在 Checkpoint 之后,State 被序列化永久保存,支持存储方式:File,HDFS,S3等。例子:词频统计,不要用 sum,而是用 reduce,然后 ValueState结果:总结:例子:使用 OperatorState 进行演示基于类似于 kafka 消费数据的功能结果:总结:举例子:着眼于是更新日期是在哪个时候,​ 而这里设置 .ne

2024-03-05 15:37:38 2416 2

原创 flink重温笔记(九):Flink 高级 API 开发——flink 四大基石之WaterMark(Time为核心)

当 flink 以 EventTime 模式处理流数据时,它会根据数据里的时间戳来处理基于时间的算子。但是由于网络、分布式等原因,会导致数据乱序的情况。结论:只要使用 event time,就必须使用 watermark,在上游指定,比如:source、map算子后。Watermark 的核心本质可以理解成一个延迟触发机制。因为前面提到,数据时间 >= 窗口结束时间,触发计算,这里想要延迟触发计算,所以水印时间一般比数据事件时间少几秒水印时间 = 事件时间 - 设置的水印长度水印的功能:在不影响按照事件

2024-03-03 15:09:46 2327 15

原创 flink重温笔记(八):Flink 高级 API 开发——flink 四大基石之 Window(涉及Time)

>前言:今天是学习 flink 的第八天啦!学习了 flink 高级 API 开发中四大基石之一: window(窗口)知识点,这一部分只要是解决数据窗口计算问题,其中时间窗口涉及时间,计数窗口,会话窗口,以及 windowFunction 的各类 API,前前后后花费理解的时间还是比较多的,查阅了很多官方文档,我一定要好好掌握!>Tips:二月底了,春天来临之际我要再度突破自己,加油!

2024-02-28 01:46:54 1810 2

原创 机器学习重温笔记(二):常用经典算法篇,解决基础数据预测问题

前言:由于机器学习的基础算法对于数据分析非常重要,有小伙伴私信我能不能梳理之前文科转码时快速学习常用算法基础的方法,今天下班后花了很多时间重新梳理了一下机器学习基础之(常用算法篇),能够解决大多数机器学习上的统计预测计算任务!希望对各位小伙伴有帮助!

2024-02-20 23:22:24 1133 1

原创 机器学习重温笔记(一):常用科学计算库,解决基础数据分析问题

前言:由于 python 数据分析非常重要,有小伙伴私信我能不能梳理之前文科转码时快速学习数据分析基础的方法,今天下班后花了很多时间重新梳理了一下机器学习基础之(常用科学计算库),能够解决大多数工作上的自动化计算任务!希望对各位小伙伴有帮助!

2024-02-19 23:52:11 1219 2

原创 flink重温笔记(七):Flink 流批一体 API 开发—— Connector 连接器

前言:今天是学习 flink 的第七天啦!学习了 flink 中 connector(数据连接器) 部分知识点,这一部分只要是解决数据处理之后,数据到哪里去的问题,主要学习了数据存储到以下三处:1、关系型数据库 mysql ;2、消息队列:kafka;3、非关系型数据库:redis我觉得还是比较有意思的,这些是以后工作要用到的技能,我一定要好好掌握!Tips:“莫道春光难揽取,浮云过后艳阳天!”明天周一,又是新的一天,要深入学习 flink 的四大基石属性!

2024-02-18 23:42:58 2027 2

原创 flink重温笔记(六):Flink 流批一体 API 开发—— 数据输出 sink

今天是学习 flink 的第七天啦!学习了 flink 中 sink(数据槽) 部分知识点,这一部分只要是解决数据处理之后,数据到哪里去的问题,我觉得 flink 知识点虽然比较难理解,但是代码跑通后,逻辑还是比较有趣的!Tips:毛爷爷说过:“宜将剩勇追穷寇,不可沽名学霸王!”明天周日除了复习前面知识点之外,也要继续努力学习接下来的知识点,继续加油!

2024-02-17 23:39:13 1540 4

原创 最简单的Hadoop+Spark大数据集群搭建方法,看这一篇就够啦

最近有小伙伴私信我,flink 软件安装在虚拟机上很简单,就是安装包解压即可,有没有 hadoop + spark 的安装文档呢?所以今天周六刚好不用上班,花了一天时间整理了一下自己现在使用集群的搭建过程,希望对各位小伙伴有帮助!Tips:以下是集群搭建过程的记录啦,word 文档和搭建好了的集群,我后续会上传资源区啦,有需要的小伙伴后续可以在我的资源区下载哦!希望和大家一起进步,有啥不清楚滴地方可以一起交流!

2024-02-17 20:59:23 6552 16

原创 flink重温笔记(五):Flink 流批一体 API 开发——物理分区(下)

前言:今天是学习 flink 的第五天啦!主要学习了物理分区较难理解的部分,在这个部分的三个分区的学习中, rescale partition 和 forward partition 其原理可以归类 pointwise 模式,其他的 partition 其原理可以归类 all_to_all 模式,而比较有趣的是 custom partitioning,这个可以进行根据值的输入进行自定义分区。

2024-02-16 23:25:04 2095 6

原创 flink重温笔记(四):Flink 流批一体 API 开发——物理分区(上)

今天是学习flink的第四天啦!学习了物理分区的知识点,这一次学习了前4个简单的物理分区,称之为简单分区篇!Tips:我相信自己会越来会好的,明天攻克困难分区篇,加油!

2024-02-15 23:57:13 1485 5

原创 flink重温笔记(三):Flink 流批一体 API 开发——Transformation 重要算子操作

今天是学习 flink 第三天啦,学习了高级 api 开发中11 中重要算子,查找了好多资料理解其中的原理,以及敲了好几个小时代码抓紧理解原理。Tips:虽然学习进度有点慢,希望自己继续努力,不断猜想 api 原理,通过敲代码不断印证自己的想法,转码大数据之路一定会越来越好的!

2024-02-14 23:53:13 1652 3

原创 flink重温笔记(二):Flink 流批一体 API 开发——Source 数据源操作

前言:今天是第二天啦!开始学习 Flink 流批一体化开发知识点,重点学习了各类数据源的导入操作,我发现学习编程需要分类记忆,一次一次地猜想 api 作用,然后通过敲代码印证自己的想法,以此理解知识点,加深对api的理解和应用。Tips:我觉得学习 Flink 还是挺有意思的,虽然学习进度有点慢,但是数据源已经理解清楚了,我相信接下来一切会越来越好的!

2024-02-13 23:37:45 1450 6

原创 flink重温笔记(一):Flink 基础入门

最近发现 Flink 技术在实时数仓开发上占比越来越明显,希望通过抓紧复习,加强对 Flink 的理解和应用,提升自己实时数仓的开发能力,以下是今日整理的学习笔记,各种图像均按照自己理解重画,有疏漏的地方还请各位大佬指出,希望能和大家一起共同学习,互相进步。Tips:这是我的第一篇 CSDN 博客,后续会持续分享每日学习总结和心得,2024年大家一起加油!

2024-02-12 22:26:14 2225 7

数据分析专栏二-数据预处理与探索性分析数据集

数据分析专栏二——数据预处理与探索性分析数据集

2024-09-07

数据集-数据可视化(八):Pandas时间序列-动态绘图,重采样,自相关图,偏相关图等高级操作

数据可视化(八):Pandas时间序列——动态绘图,重采样,自相关图,偏相关图等高级操作

2024-06-30

数据集-数据可视化(九):Pandas北京租房数据分析-房源特征绘图、箱线图、动态可视化等高级操作

数据集-数据可视化(九):Pandas北京租房数据分析——房源特征绘图、箱线图、动态可视化等高级操作

2024-05-28

商务分析实验九-公司财务数据集.zip

3. 用excel打开salary, 再增加2条记录,其中有一条是自己的姓名。Python分别读入salary、salary-new、salary-buchong 三个表为数据框,合并三个数据框(该数据实验10也会用到) (1)添加2条记录,一条是自己的姓名: (2)合并数据: 4.查看数据框的头3行和后两行, 查看df的索引、值 5. df有没有异常值,异常值删除。有没有缺失值,缺失值用平均数填充 6.查看所有数值变量的统计信息(平均值、标准差、最小值、最大值、25%、50%、75%等信息) 7. 按应发工资大小排序,找出工资最高的3人 8.查看基本工资>3000的人的姓名, 查看基本工资3000-6000的人的信息。 9.显示所有人的姓名和实发工资 10.查看财务处人员的姓名和部门 11.查看财务处基本工资的平均值、最大值 12.按部门分组,显示分组后的各组人员的所有信息,计算各组人数、各组应发工资的最大值。 13.按部分、职务分组,计算各组所有数值列的平均值 14.查看聚集函数aggregate的结果

2024-05-13

数据源-数据可视化(七):Pandas香港酒店数据高级分析,涉及相关系数,协方差,数据离散化,透视表等精美可视化展示

数据源——数据可视化(七):Pandas香港酒店数据高级分析,涉及相关系数,协方差,数据离散化,透视表等精美可视化展示

2024-04-23

实验3客户RFM实验案例代码

​ 一、实验目的 1掌握RFM分析方法和k-means聚类的方法,能够进行价值识别 2掌握Python 聚类的方法 3.EM聚类(基于高斯混合模型的EM聚类) 二、知识准备 RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在客户分类中,RFM模型是一个经典的分类模型,利用通用交易环节中最核心的三个维度——最近消费(Recency)、消费频率(Frequency)、消费金额(Monetary)细分客户群体,从而分析不同群体的客户价值。 三、实验准备 1.使用算法:RFM模型、聚类算法 2. 数据来源 RFM数据集为英国在线零售商在2010年12月1日至2011年12月9日间发生的所有网络交易订单信息。该公司主要销售礼品为主,并且多数客户为批发商。 数据集介绍及来源: https://www.kaggle.com/carrie1/ecommerce-data https://archive.ics.uci.edu/ml/datasets/online+retail# 特征说明: InvoiceNo:订单编号,由六位数字组成,退货订单编号开头有字母C StockCode

2024-04-22

数据可视化(六):Pandas爬取NBA球队排名、爬取历年中国人口数据、爬取中国大学排名、爬取sina股票数据、绘制精美函数图像

数据可视化(六):Pandas爬取NBA球队排名、爬取历年中国人口数据、爬取中国大学排名、爬取sina股票数据、绘制精美函数图像

2024-04-21

数据集-数据可视化(五):Pandas高级统计-函数映射、数据结构、分组聚合等问题解决,能否成为你的工作备用锦囊?

数据集——数据可视化(五):Pandas高级统计——函数映射、数据结构、分组聚合等问题解决,能否成为你的工作备用锦囊?

2024-04-21

python主成分分析数据集-各地区年份平均收入数据

python主成分分析数据集-各地区年份平均收入数据

2024-04-13

SparkSQL最全面案例数据集

SparkSQL是Apache Spark的一个模块,用于处理结构化数据。它提供了一个DataFrame API来编写SQL查询,这些查询可以处理来自各种数据源的数据,并返回DataFrame作为结果。DataFrame是一个分布式的数据集合,可以包含多种类型的数据,并提供了一种方便的方式来处理和分析这些数据。 然而,关于“SparkSQL最全面案例数据集”的问题,实际上并没有一个官方或广泛认可的“最全面”案例数据集。SparkSQL的应用范围非常广泛,可以应用于各种数据处理和分析的场景,因此案例和数据集也是多种多样的。 不过,我可以为你介绍一些常见的SparkSQL案例和数据集类型,帮助你更好地了解如何在不同场景中使用SparkSQL。 电影评分数据集:这是一个常见的分析案例,用于分析电影的评分、评论和用户行为等。通过SparkSQL,可以对电影评分进行统计分析,找出最受欢迎的电影、评分最高的电影等。 电商交易数据集:电商交易数据通常包含订单信息、用户信息、商品信息等。利用SparkSQL,可以对交易数据进行聚合分析,计算销售额、用户购买行为、商品销量等。 社交网络数据集:社交

2024-03-25

最全面的大数据Spark-Core实战案例数据集

对于大数据Spark-Core的实战案例数据集,全面性和具体性可能因不同的应用场景、业务需求和数据源而异。然而,我可以为你提供一个概述和一些常见的实战案例数据集的示例,以帮助你理解其可能的应用范围。 Spark-Core是Apache Spark的核心组件,提供了分布式计算的基础功能。它支持多种数据源和格式,可以处理大规模数据集并进行高效的并行计算。因此,Spark-Core实战案例数据集的选择通常取决于具体的业务需求和场景。 以下是一些常见的Spark-Core实战案例数据集的示例: 点击流日志分析: 数据集:包含用户点击网站或应用的日志数据,通常包括时间戳、用户ID、页面URL、点击事件类型等信息。 应用场景:用于分析用户行为、流量统计、热门页面等。 实战案例:通过分析点击流日志数据,可以统计PV(页面浏览量)、UV(独立访客数)、用户访问路径等信息,进而优化网站结构、提升用户体验。 电商交易数据分析: 数据集:包含电商平台的交易数据,如订单信息、用户购买记录、商品信息等。 应用场景:用于分析销售趋势、用户购买行为、商品关联推荐等。 实战案例:通过Spark-Core处理交易

2024-03-22

flink-connector-hive-2.12-1.13.1.jar

flink-connector-hive_2.12-1.13.1.jar 是 Apache Flink 的一个 Hive 连接器 JAR 包,用于在 Flink 中与 Apache Hive 集成。这里面的数字 2.12 和 1.13.1 分别表示了这个 JAR 包所依赖的 Scala 和 Flink 的版本。 具体来说: flink-connector-hive:表示这是一个 Flink 的 Hive 连接器。 _2.12:表示这个 JAR 包是为 Scala 2.12 版本编译的。 1.13.1:表示这个 JAR 包是 Flink 1.13.1 版本的。 Hive 是一个基于 Hadoop 的数据仓库工具,用于查询和管理存储在 Hadoop 文件系统中的结构化数据。通过 Flink 的 Hive 连接器,你可以直接在 Flink 中访问 Hive 中的数据表,从而执行流处理和批处理任务。 这个连接器提供了以下几个主要功能: 元数据同步:Flink 可以读取 Hive 的元数据,包括数据库、表和分区的信息,从而在 Flink SQL 中直接使用这些表。 数据读取和写入:Fl

2024-03-15

flink-sql-connector-kafka-2.12-1.13.1.jar

flink-sql-connector-kafka_2.12-1.13.1.jar 是 Apache Flink 的一个 Kafka SQL Connector 的 JAR 包,用于在 Flink SQL 环境中与 Apache Kafka 集成。这里面的数字 2.12 和 1.13.1 分别表示了这个 JAR 包所依赖的 Scala 和 Flink 的版本。 具体来说: flink-sql-connector-kafka:表示这是一个 Flink 的 SQL Kafka 连接器。 _2.12:表示这个 JAR 包是为 Scala 2.12 版本编译的。Scala 是 Flink 和很多其他大数据工具常用的编程语言。 1.13.1:表示这个 JAR 包是 Flink 1.13.1 版本的。 当你需要在 Flink SQL 环境中从 Kafka 读取数据或向 Kafka 写入数据时,你可以使用这个 JAR 包。这个连接器支持 Flink SQL 的标准 DDL (Data Definition Language) 和 DML (Data Manipulation Language)

2024-03-15

hive-exec-2.1.1.jar

hive-exec-2.1.1 是 Apache Hive 的一部分,特别是与 Hive 的执行引擎相关的组件。Apache Hive 是一个构建在 Hadoop 之上的数据仓库基础设施,它允许用户以 SQL(结构化查询语言)的形式查询和管理大型数据集。Hive 提供了一种 SQL 接口来访问数据,这些数据通常存储在 Hadoop 的分布式文件系统(HDFS)中。 Hive 的主要组件包括: Hive Metastore:存储元数据(如表的模式、分区信息等)。 HiveServer2:提供客户端连接和 SQL 查询执行。 Hive Execution Engine:这是实际执行查询的组件,它读取数据,处理查询,并返回结果。 hive-exec-2.1.1 是 Hive 执行引擎的一个特定版本(2.1.1)。这个组件负责解析 SQL 查询,生成执行计划,并协调与 Hadoop 集群的交互以执行这些计划。它还包括了用于数据处理的逻辑和与 Hadoop 组件(如 MapReduce、Tez 或 Spark)的集成。 具体来说,hive-exec 可能包括以下功能: 查询解析和优化:将

2024-03-14

flink-connector-hive_2.11-1.13.1.jar

flink-connector-hive_2.11-1.13.1

2024-03-14

大数据kafak必备可视化工具-kafka2.0.7

你是否还在为每次查看Kafka数据而反复敲打命令行感到疲惫?是否期待有一款简单直观的工具,能够让你一目了然地掌握Kafka的运行状态和数据流动?那么,恭喜你,你的期待已经成为现实! 我们隆重推出的大数据Kafka必备可视化工具——kafka2.0.7,正是你期待中的那款神器。它采用最新的技术架构,结合人性化的设计,让你无需再为复杂的命令行而烦恼,只需轻松点击,即可查看Kafka的实时数据、消费进度、主题状态等重要信息。 kafka2.0.7拥有以下独特优势: 直观可视化界面:告别命令行,用图形化界面展示Kafka的所有关键信息,让你一眼就能看清Kafka的运行状态。 实时数据监控:实时更新Kafka的生产和消费数据,让你随时掌握数据的流动情况,为决策提供有力支持。 主题管理:轻松管理Kafka的主题,包括创建、删除、修改等操作,让你的Kafka管理更加便捷。 性能优化:通过精细化的性能监控,帮助你找出Kafka的性能瓶颈,优化你的大数据处理流程。 安全可靠:采用严格的安全机制,确保你的Kafka数据安全无虞,让你放心使用。 kafka2.0.7不仅适用于大数据领域的专业

2024-03-14

还在为搭建集群的期末作业发愁吗?最简单的搭建hadoop+spark+hive大数据集群搭建文档.docx

最简单的Hadoop+Spark大数据集群搭建方法,看这一篇就够啦,给出一个完全分布式hadoop+spark集群搭建完整文档,从环境准备(包括机器名,ip映射步骤,ssh免密,Java等)开始,包括zookeeper,hadoop,hive,spark,eclipse/idea安装全过程,3-4节点,集群部署自己确定,比如集群涉及的多种角色namenode,secondary namenode, datanode,resourcemanager等的节点分配,并用表格形式给出。给出可访问的ip,用户名密码。(阿里云直接给公网ip,校园网需给公网和校园网ip)。要求图文并茂,详细操作步骤,说明,截图。最近有小伙伴私信我,flink 软件安装在虚拟机上很简单,就是安装包解压即可,有没有 hadoop + spark 的安装文档呢?所以今天周六刚好不用上班,花了一天时有需要的小伙伴后续可以在我的资源区下载哦!希望和大家一起进步,有啥不清楚滴地方可以一起交流! 这一次梳理搭建过程我觉得很有意义,熟悉了各类配置文件之间的关联,以及大数据组件之间的配置关系,很开心和大家分享此文,那就,继续加油吧!

2024-02-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除