- 博客(77)
- 收藏
- 关注
原创 数据可视化(四):Pandas技术的高级操作案例,豆瓣电影数据也能轻松分析!
Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!
2024-04-18 23:33:10
1314
2
原创 数据可视化(三):Pandas技术的基本操作案例,让你快速掌握数据处理技术
红色在RGB颜色模式中所对应的值就是255,0,0;绿色在RGB颜色模式中所对应的值就是0,255,0;蓝色在RGB颜色模式中所对应的值就是0,0,255。获取用户输入的信息,编写代码定义一个复杂的dtype结构,数组元素包含三部分,分别为R、G、B的颜色值。dtype结构元素名称分别为R、G、B类型的无符号8位整型,输出颜色值数组。
2024-04-17 23:42:47
1186
1
原创 数据可视化(二):凯撒密码 和 Vigenere 密码,让你轻松学会数据信息加密解密技术
Python 实现-加密解密技术>Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!一、凯撒密码凯撒密码(Caesar cipher)是一种最简单且最广为人知的加密技术。它是一种替换式的密码,通过把字母移动固定数目的位置进行加密。凯撒密码通常又被称作恺撒移位密码或者凯撒加密法。凯撒密码的原理是:通过把字母表中的每一个字母
2024-04-16 13:37:19
957
2
原创 数据可视化(一):python技巧思路养成(快递柜单号,微软序列号生成技术,数据脱敏等)
编写一个 Python 程序,获取用户输入的字符串,使用 jieba 库进行分词后,统计给定字符串中各单词出现的次数,去除标点符号,如"," “.” " "。很多人喜欢玩扑克牌,现有一手好牌,牌及顺序为:[‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’, ‘10’, ‘J’, ‘Q’, ‘K’, ‘A’],请输入一个整数 n做为随机数种子,使用shuffle(x) 函数将牌序打乱,输出一个新的牌序。取件码的字符包括:数字0-9和字母A、B、C、D、E、F、G、H、I、J。
2024-04-15 18:26:48
2093
2
原创 数据分析案例(三):基于RFM分析的客户分群
在本次实验过程中,由于本人想要探究RFM-季度-数量之间的关系,而数据集是2010年12月1日到2011年12月9日的数据,导致在划分季度的时候,2011年12月的数据是4季度,2011年12月的数据也是4季度。这类群体的消费新近度高且订单金额高,但购买频率低,因此只要提升其购买频次,用户群体的贡献价值就会倍增。331(占比0.2):近期活跃高频低价值群体,企业应加强与他们的互动和沟通,提供个性化的优惠和推荐,深入分析他们的消费需求和习惯,并提供优质的客户服务,以维持和提升他们的消费价值和忠诚度。
2024-04-14 20:49:05
1954
3
原创 数据分析案例(二):学生成绩数据的预处理、探索性分析和可视化
实验1 学生成绩数据的预处理、探索性分析和可视化1. 有60名学生的两门课程成绩的数据文件(文件名分别为ReportCard1和ReporCard2),分别记录着学生的学号、性别以及不同课程的成绩。请将数据读入Pandas数据框,并做如下处理:1)将两个数据文件按学号合并为一个数据文件,得到包含所有课程成绩的数据文件。2)计算每个同学的各门课程的总成绩和平均成绩。3)将数据按总成绩的降序排序。4)按性别分别计算各门课程的平均成绩。5)按优、良、中、及格和不及格,对平均成绩进行分组。
2024-04-13 20:30:35
5096
8
原创 数据分析案例(一):地区收入的PCA主成分分析
pd.read_csv(path,encoding=编码格式),注意这里的编码是gb2312。导入基础数据操作库包,PCA、k-means 库包,数据可视化库包。df[字段名].astype(新类型)特征工程标转化,高维数据转化为低维数据。练习1 地区收入的PCA主成分分析。df[字段列表],提取数值型的数据。选择曲线开始变得平坦的点作为K值。散点图显示聚类簇和特征变量关系。(列和 / 非空个数)将k值确定为肘部“4”
2024-04-12 19:25:56
1032
1
原创 Spark重温笔记(五):SparkSQL进阶操作——迭代计算,开窗函数,结合多种数据源,UDF自定义函数
1-定义series函数2-pandas_udf自定义函数和类型,或者@pandas_udf3-将series数据源转化为dataframe格式import os# 当存在多个版本时,不指定很可能会导致出错print("普通的集合的基本series相乘:")# 提出问题:如果使用上面的方式仅仅可以处理单机版本的数据,对于分布式数据无法使用上述函数# 如何解决,这时候通过pandas_udf,将pandas的series或dataframe和Spark并行计算结合。
2024-03-26 22:35:36
1984
15
原创 Spark重温笔记(四):秒级处理庞大数据量的 SparkSQL 操作大全,能否成为你的工作备忘指南?
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。sparkSQL的四个特性1-易整合:将sql查询与spark程序无缝混合,可以使用java、scala、python、R等语言的API操作。2-统一的数据访问:以相同的方式连接到任何数据源。3-兼容hive: 支持Hive HQL的语法,兼容hive(元数据库、SQL语法、UDF、序列化、反序列化机制)。
2024-03-25 21:54:51
1548
4
原创 Spark重温笔记(三):Spark在企业中为什么能这么强?——持久化、Checkpoint机制、共享变量与内核调度原理全攻略“
今天是温习 Spark 的第 3 天啦!主要梳理了 Spark 核心数据结构:RDD(弹性分布式数据集),包括RDD持久化,checkpoint机制,spark两种共享变量以及spark内核调度原理,希望对大家有帮助!Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!
2024-03-24 19:27:20
848
4
原创 Flume温习笔记(一):想不想用Flume采集模板成为数据达人?一篇文章让你轻松上手!
最近在公司做 flume 业务的时候,和部门同事总结了一些技巧性配置文件,可以涵盖工作的 90% flume 数据采集业务,我看到网上好多都是付费的文章,因此想写一篇文章分享给大家,希望对大家有帮助!Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!
2024-03-23 16:50:56
665
6
原创 Spark重温笔记(二):快如闪电的大数据计算框架——你真的了解SparkCore的 RDD 吗?(包含企业级搜狗案例和网站点击案例)
最全面的SparkCore系列案例数据集1-分区列表:RDD是由一些列分区组成的2-计算函数3-依赖关系:比如reduceByKey依赖于map依赖于flatMap4-key-value的分区器:默认分区是hash分区,可以变更为range分区等5-位置优先性: 按照"移动数据不如移动计算"的理念,Spark在进行任务调度的时候,会尽可能选择那些存有数据的worker节点来进行任务计算。(数据本地性)
2024-03-22 17:47:25
1223
12
原创 Spark重温笔记(一):一分钟部署PySpark环境,轻松上手Spark配置
Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校。1-速度快:其一、Spark处理数据时,可以将中间处理结果数据存储到内存中其二、spark job调度以DAG方式,每个任务Task以线程Thread方式,而不是mapreduce以进程process方式2-易于使用:Spark 的版本已经更新到(截止日期2021.06.01),支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。
2024-03-21 21:57:52
3920
3
原创 flink重温笔记(十九): flinkSQL 顶层 API ——FlinkSQL 窗口(解决动态累积数据业务需求)
over:定义窗口长度on:用来分组(按时间间隔)或者排序(按行数)的时间字段as:别名,必须出现在后面的groupBy中例子:每隔5秒钟统计一次每个商品类型的销售总额new OrderInfo("电脑", 1000L, 100D),new OrderInfo("手机", 2000L, 200D),new OrderInfo("电脑", 3000L, 300D),new OrderInfo("手机", 4000L, 400D),
2024-03-17 13:38:05
1681
13
原创 flink重温笔记(十八): flinkSQL 顶层 API ——实时数据Table化(涵盖全面实用的 API )
喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!"2. 数据库操作3. 数据表操作4. 视图操作5. 分区操作6. 函数操作 ## 五、FlinkSQL 流处理1. 时间特性1.1 处理时间(Processing Time)简介:机器在本地生成的时间,不需要提取时间戳,也不需要水印!例子:文件系统建表总结:在建表的时候增加一列:,注意 timestamp 需要为 BIGINT 类型!例子:文件流转化为表总结:转化为表指定字段时,添加一列 1.2
2024-03-16 16:27:52
1854
原创 flink重温笔记(十七): flinkSQL 顶层 API ——SQLClient 及流批一体化
今天是学习 flink 的第 17 天啦!学习了 flinkSQL 的客户端工具 flinkSQL-client,主要是解决大数据领域数据计算避免频繁提交jar包,而是简单编写sql即可测试数据,文章中主要结合 hive,即编写 flinksql 可以操作 hive 中的数据表,以及流批一体化:kafak 将数据写入到 hive中,结合自己实验猜想和代码实践,总结了很多自己的理解和想法,希望和大家多多交流!
2024-03-15 15:42:11
1506
原创 flink重温笔记(十六): flinkSQL 顶层 API ——实时数据流结合外部系统
今天是学习 flink 的第 16 天啦!学习了 flinkSQL 与企业级常用外部系统结合,主要是解决大数据领域数据计算后,写入到文件,kafka,还是mysql等 sink 的问题,即数据计算完后保存到哪里的问题!结合自己实验猜想和代码实践,总结了很多自己的理解和想法,希望和大家多多交流!Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!
2024-03-14 18:12:43
1525
1
原创 flink重温笔记(十五): flinkSQL 顶层 API ——实时数据流转化为SQL表的操作
今天是学习 flink 的第 15 天啦!学习了 flinkSQL 基础入门,主要是解决大数据领域数据处理采用表的方式,而不是写复杂代码逻辑,学会了如何初始化环境,鹅湖将流数据转化为表数据,以及如何查询表数据,结合自己实验猜想和代码实践,总结了很多自己的理解和想法,希望和大家多多交流!Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!
2024-03-12 21:15:22
1910
3
原创 flink重温笔记(十四): flink 高级特性和新特性(3)——数据类型及 Avro 序列化
Avro 是数据序列化系统,支持大批量数据交换的应用。支持二进制序列化方式,性能好 / 效率高,使用 JSON 描述。动态语言友好,RPC 远程调用,支持同步和异步通信。namespace:要生成的目录type:类型 avro 需要指定 recordname:会自动生成的对象fields:要指定的字段注意: 创建的文件后缀名一定要叫avsc,而不是 avro 后缀,使用idea生成Order对象注意:由于在导入 pom 依赖的时候,需要注意插件冲突,注释掉以下依赖,不然会一直爆错!
2024-03-10 18:10:46
1261
2
原创 flink重温笔记(十三): flink 高级特性和新特性(2)——ProcessFunction API 和 双流 join
喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!"之前的转换算子是无法访问时间戳信息和水位线信息的,但 Process Function 可以访问时间戳,水位线,以及注册定时时间等,Flink SQL 就是使用 Process Function 实现的。KeyedProcessFunction 作为 ProcessFunction 的扩展,在其 onTimer(…) 方法中提供对定时器对应key的访问。所有的 Process Function 都继承自 RichFunction 接口
2024-03-09 22:46:40
1976
7
原创 flink重温笔记(十二): flink 高级特性和新特性(1)——End-to-End Exactly-Once(端到端精确一致性语义)
顺序:At most once(最多一次)< At least once(至少一次)< Exactly once(精确一次)< End to End Exactly once(端到端一次)最简单的恢复方式,直接从失败的下个数据恢复程序,丢失刚刚失败的数据。由于事件是可以重传的,可能造成数据重复。依赖 checkpoint 机制,回滚恢复数据,保持所有记录仅影响内部状态一次,即不考虑部分数据泄露到下游。Flink 应用从 Source 端开始到 Sink 端结束,保持所有记录影响内部和外部状态一次,即考虑部
2024-03-08 20:55:07
1609
4
原创 华为数通学习笔记(一):数据通信网络基础
在学习大数据的过程中,我发现很多地方需要用到网络知识点,由于我哥考取了华为数通 HCIE 证书,目前正在一家大公司担任技术负责人,因此借此机会我要向他学习这方面的知识点,希望能够拓宽自己的视野,进一步理解网络通信和部署,充实自己的知识体系,为自己大数据学习之路保驾护航!Tips:今天是学习的第一天,理解了一些术语概念,晚上要来做下教材上的实验,深刻体会一下网络部署的入门实验!
2024-03-07 19:14:39
5321
1
原创 flink重温笔记(十一):Flink 高级 API 开发——flink 四大基石之 Checkpoint(详解存储后端)
1- Flink 检查点机制,(协调者)定期在数据流上生成 checkpoint barrier;2- 当某个算子接收到barrier(数据栅栏) 时,会基于当前状态生成一份快照;3- 后将 barrier 传递给下游算子,依次快照并传递下去,直到 sink;4- 出现异常时,根据最近的快照数据,将所有算子恢复到之前状态;5-收到所有算子的报告后,才认为该周期快照成功。flink-conf.yaml 配置文件的 restart-strategy 配置参数决定重启策略。重启策略重启策略值。
2024-03-06 23:37:24
2514
3
原创 SQL技巧笔记(一):连续3人的连号问题—— LeetCode601.体育馆的人流量
我发现大数据招聘岗位上的应聘流程都是需要先进行笔试,其中占比很大的部分是SQL题目,经过一段时间的学习之后,今天开了一个力扣年会员,我觉得我很有必要去多练习笔试题目,这些题目是有技巧性的,很贴近生活!Tips:我很享受独自做出题目的感觉,也很喜欢和大家分享自己的思路!我会继续努力,遇到有趣的题目,独特的思路会和大家多多交流!
2024-03-05 22:41:44
694
原创 flink重温笔记(十):Flink 高级 API 开发——flink 四大基石之 State(涉及Checkpoint)
简介:State(状态)是基于 Checkpoint(检查点)来完成状态持久化,在 Checkpoint 之前,State 是在内存中(变量),在 Checkpoint 之后,State 被序列化永久保存,支持存储方式:File,HDFS,S3等。例子:词频统计,不要用 sum,而是用 reduce,然后 ValueState结果:总结:例子:使用 OperatorState 进行演示基于类似于 kafka 消费数据的功能结果:总结:举例子:着眼于是更新日期是在哪个时候, 而这里设置 .ne
2024-03-05 15:37:38
2416
2
原创 flink重温笔记(九):Flink 高级 API 开发——flink 四大基石之WaterMark(Time为核心)
当 flink 以 EventTime 模式处理流数据时,它会根据数据里的时间戳来处理基于时间的算子。但是由于网络、分布式等原因,会导致数据乱序的情况。结论:只要使用 event time,就必须使用 watermark,在上游指定,比如:source、map算子后。Watermark 的核心本质可以理解成一个延迟触发机制。因为前面提到,数据时间 >= 窗口结束时间,触发计算,这里想要延迟触发计算,所以水印时间一般比数据事件时间少几秒水印时间 = 事件时间 - 设置的水印长度水印的功能:在不影响按照事件
2024-03-03 15:09:46
2327
15
原创 flink重温笔记(八):Flink 高级 API 开发——flink 四大基石之 Window(涉及Time)
>前言:今天是学习 flink 的第八天啦!学习了 flink 高级 API 开发中四大基石之一: window(窗口)知识点,这一部分只要是解决数据窗口计算问题,其中时间窗口涉及时间,计数窗口,会话窗口,以及 windowFunction 的各类 API,前前后后花费理解的时间还是比较多的,查阅了很多官方文档,我一定要好好掌握!>Tips:二月底了,春天来临之际我要再度突破自己,加油!
2024-02-28 01:46:54
1810
2
原创 机器学习重温笔记(二):常用经典算法篇,解决基础数据预测问题
前言:由于机器学习的基础算法对于数据分析非常重要,有小伙伴私信我能不能梳理之前文科转码时快速学习常用算法基础的方法,今天下班后花了很多时间重新梳理了一下机器学习基础之(常用算法篇),能够解决大多数机器学习上的统计预测计算任务!希望对各位小伙伴有帮助!
2024-02-20 23:22:24
1133
1
原创 机器学习重温笔记(一):常用科学计算库,解决基础数据分析问题
前言:由于 python 数据分析非常重要,有小伙伴私信我能不能梳理之前文科转码时快速学习数据分析基础的方法,今天下班后花了很多时间重新梳理了一下机器学习基础之(常用科学计算库),能够解决大多数工作上的自动化计算任务!希望对各位小伙伴有帮助!
2024-02-19 23:52:11
1219
2
原创 flink重温笔记(七):Flink 流批一体 API 开发—— Connector 连接器
前言:今天是学习 flink 的第七天啦!学习了 flink 中 connector(数据连接器) 部分知识点,这一部分只要是解决数据处理之后,数据到哪里去的问题,主要学习了数据存储到以下三处:1、关系型数据库 mysql ;2、消息队列:kafka;3、非关系型数据库:redis我觉得还是比较有意思的,这些是以后工作要用到的技能,我一定要好好掌握!Tips:“莫道春光难揽取,浮云过后艳阳天!”明天周一,又是新的一天,要深入学习 flink 的四大基石属性!
2024-02-18 23:42:58
2027
2
原创 flink重温笔记(六):Flink 流批一体 API 开发—— 数据输出 sink
今天是学习 flink 的第七天啦!学习了 flink 中 sink(数据槽) 部分知识点,这一部分只要是解决数据处理之后,数据到哪里去的问题,我觉得 flink 知识点虽然比较难理解,但是代码跑通后,逻辑还是比较有趣的!Tips:毛爷爷说过:“宜将剩勇追穷寇,不可沽名学霸王!”明天周日除了复习前面知识点之外,也要继续努力学习接下来的知识点,继续加油!
2024-02-17 23:39:13
1540
4
原创 最简单的Hadoop+Spark大数据集群搭建方法,看这一篇就够啦
最近有小伙伴私信我,flink 软件安装在虚拟机上很简单,就是安装包解压即可,有没有 hadoop + spark 的安装文档呢?所以今天周六刚好不用上班,花了一天时间整理了一下自己现在使用集群的搭建过程,希望对各位小伙伴有帮助!Tips:以下是集群搭建过程的记录啦,word 文档和搭建好了的集群,我后续会上传资源区啦,有需要的小伙伴后续可以在我的资源区下载哦!希望和大家一起进步,有啥不清楚滴地方可以一起交流!
2024-02-17 20:59:23
6552
16
原创 flink重温笔记(五):Flink 流批一体 API 开发——物理分区(下)
前言:今天是学习 flink 的第五天啦!主要学习了物理分区较难理解的部分,在这个部分的三个分区的学习中, rescale partition 和 forward partition 其原理可以归类 pointwise 模式,其他的 partition 其原理可以归类 all_to_all 模式,而比较有趣的是 custom partitioning,这个可以进行根据值的输入进行自定义分区。
2024-02-16 23:25:04
2095
6
原创 flink重温笔记(四):Flink 流批一体 API 开发——物理分区(上)
今天是学习flink的第四天啦!学习了物理分区的知识点,这一次学习了前4个简单的物理分区,称之为简单分区篇!Tips:我相信自己会越来会好的,明天攻克困难分区篇,加油!
2024-02-15 23:57:13
1485
5
原创 flink重温笔记(三):Flink 流批一体 API 开发——Transformation 重要算子操作
今天是学习 flink 第三天啦,学习了高级 api 开发中11 中重要算子,查找了好多资料理解其中的原理,以及敲了好几个小时代码抓紧理解原理。Tips:虽然学习进度有点慢,希望自己继续努力,不断猜想 api 原理,通过敲代码不断印证自己的想法,转码大数据之路一定会越来越好的!
2024-02-14 23:53:13
1652
3
原创 flink重温笔记(二):Flink 流批一体 API 开发——Source 数据源操作
前言:今天是第二天啦!开始学习 Flink 流批一体化开发知识点,重点学习了各类数据源的导入操作,我发现学习编程需要分类记忆,一次一次地猜想 api 作用,然后通过敲代码印证自己的想法,以此理解知识点,加深对api的理解和应用。Tips:我觉得学习 Flink 还是挺有意思的,虽然学习进度有点慢,但是数据源已经理解清楚了,我相信接下来一切会越来越好的!
2024-02-13 23:37:45
1450
6
原创 flink重温笔记(一):Flink 基础入门
最近发现 Flink 技术在实时数仓开发上占比越来越明显,希望通过抓紧复习,加强对 Flink 的理解和应用,提升自己实时数仓的开发能力,以下是今日整理的学习笔记,各种图像均按照自己理解重画,有疏漏的地方还请各位大佬指出,希望能和大家一起共同学习,互相进步。Tips:这是我的第一篇 CSDN 博客,后续会持续分享每日学习总结和心得,2024年大家一起加油!
2024-02-12 22:26:14
2225
7
数据集-数据可视化(八):Pandas时间序列-动态绘图,重采样,自相关图,偏相关图等高级操作
2024-06-30
数据集-数据可视化(九):Pandas北京租房数据分析-房源特征绘图、箱线图、动态可视化等高级操作
2024-05-28
商务分析实验九-公司财务数据集.zip
2024-05-13
数据源-数据可视化(七):Pandas香港酒店数据高级分析,涉及相关系数,协方差,数据离散化,透视表等精美可视化展示
2024-04-23
实验3客户RFM实验案例代码
2024-04-22
数据可视化(六):Pandas爬取NBA球队排名、爬取历年中国人口数据、爬取中国大学排名、爬取sina股票数据、绘制精美函数图像
2024-04-21
数据集-数据可视化(五):Pandas高级统计-函数映射、数据结构、分组聚合等问题解决,能否成为你的工作备用锦囊?
2024-04-21
SparkSQL最全面案例数据集
2024-03-25
最全面的大数据Spark-Core实战案例数据集
2024-03-22
flink-connector-hive-2.12-1.13.1.jar
2024-03-15
flink-sql-connector-kafka-2.12-1.13.1.jar
2024-03-15
hive-exec-2.1.1.jar
2024-03-14
大数据kafak必备可视化工具-kafka2.0.7
2024-03-14
还在为搭建集群的期末作业发愁吗?最简单的搭建hadoop+spark+hive大数据集群搭建文档.docx
2024-02-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅