卡林神不是猫-CSDN博客

原创 Python进阶技巧（二）Python 字符串查找、修改、判断大全

Tips："分享是快乐的源泉💧，在我的博客里，不仅有知识的海洋🌊，还有满满的正能量加持💪，快来和我一起分享这份快乐吧😊！喜欢我的博客的话，记得点个红心❤️和小关小注哦！您的支持是我创作的动力！（有什么问题可以私信）

2025-01-20 22:30:01 324 1

原创 Python进阶技巧（一）18个高级函数带你入门便捷算法刷题

Tips："分享是快乐的源泉💧，在我的博客里，不仅有知识的海洋🌊，还有满满的正能量加持💪，快来和我一起分享这份快乐吧😊！喜欢我的博客的话，记得点个红心❤️和小关小注哦！您的支持是我创作的动力！

2025-01-19 16:31:27 372

原创大数据技术原理（四）熟悉常用的 Hbase 操作

（实验二熟悉常用的 Hbase 操作）--------------------------------------------------------------------------------------------------------------------------------喜欢我的博客的话，记得点个红心❤️和小关小注哦！您的支持是我创作的动力！（有什么问题可以私信）一、实验目的1.理解 HBase 在 Hadoop体系结构中的角色。分布式存储：HBase以分布式方式存储数据，利用HDF

2024-06-30 14:31:44 997 2

原创大数据技术原理（三）：HDFS 最全面的 API 操作，你值得收藏

根据警告信息，属于少了log4j依赖，缺失配置log4j.properties文件，以及jar包冲突。解决方法如下：# 引入log4j依赖-->dependencygroupIdgroupIdartifactIdartifactIdversionversion1.7.7

2024-06-01 13:39:37 1190 2

原创大数据技术原理（二）：搭建hadoop伪分布式集群这一篇就够了

一、实验目的1.理解Hadoop伪分布式的安装过程实验内容涉及Hadoop平台的搭建和配置，旨在提高对大数据处理框架的理解和实践能力。通过完成本实验，将能够独立完成Hadoop伪分布式环境的安装和配置。2.学会JDK安装和编译hadoop源码包同时，通过手动编译hadoop源码包，还将能够更深入地了解Hadoop的内部原理和工作机制，通过解决问题并不断思考，具备根据需求进行扩展和定制的能力。3.学会Hadoop伪分布式安装和参数配置修改Hadoop的配置文件，包括core-site.xml、

2024-05-23 20:15:07 2888 2

原创大数据技术原理（一）：还记得你大数据入门的第一份测试题吗

大数据技术原理（一）：还记得你大数据入门的第一份测试题吗大数据技术原理作业一、完成慕课第一讲单元测验二、完成教材第一章课后习题9，121.举例说明大数据关键技术。2、详细阐述大数据，云计算，物联网三者之间的区别与联系。

2024-05-23 13:32:57 1095

原创 Linux程序开发（十三）：网络编程实现0521深情告白

题目描述：小明和小红是一对异地恋的情侣，他们每天都会通过网络互相传递爱意。为了增强这种互动的乐趣，他们希望编写一个小程序来模拟发送和接收消息的过程。要求：请你编写一个基于 Linux 网络编程的 C 语言程序，实现以下功能：1、小明作为服务器端，监听某个指定端口，等待小红的消息；2、小红作为客户端，连接到小明的服务器端，并发送消息给小明；3、小明接收到小红的消息后，打印出消息内容，并回复一个自定义的消息给小红；4、小红接收到小明的回复后，打印出回复的消息内容。注意事项：程序需要处理异

2024-05-21 16:39:03 914 1

原创 Linux程序开发（十二）：线程与多线程同步互斥实现抢票系统

某公司的演唱会门票正在热销中，为了让用户更好地体验购票过程，公司决定开启一个抢票系统。具体来说，用户可以在系统中选择想要购买的门票数量，系统会随机生成几个购票请求，并给出这些请求的优先级（优先级越高，越先处理）。每个请求需要购买一定数量的门票，如果门票数量已经不足，则该请求将会被拒绝。如果多个请求同时到达，需要按照优先级进行处理。在处理完一个请求后，系统需要输出当前剩余的门票数量。请你使用Linux下的线程和多线程同步互斥知识，编写一个C程序实现这个抢票系统，要求满足以下条件：1、系统需要启动两个线程

2024-05-21 16:34:22 1201 1

原创 Linux程序开发（十一）：进程与进程间通信设计之趣味猫咪抓老鼠游戏

小明有一只猫咪和几只老鼠，他想编写一个Linux下的C程序来实现猫咪捉老鼠的游戏。具体来说，程序中需要启动两个进程，一个进程代表猫咪，另一个进程代表老鼠。猫咪和老鼠在一个二维平面上移动，猫咪的初始位置随机生成，老鼠的初始位置也随机生成。猫咪和老鼠每次移动时，会随机选择上下左右四个方向之一，然后向该方向移动一个单位距离。如果猫咪和老鼠的位置重合，则猫咪抓住老鼠，游戏结束。请你编写一个C程序，实现猫咪抓老鼠的游戏。程序需要满足以下要求：1、猫咪和老鼠的初始位置、移动速度等参数需要在程序运行时由用户输入。2

2024-05-20 23:08:47 897

原创 Linux程序开发（十）：文件分类器趣味设计

小明是一个喜欢整理文件的人，他希望编写一个程序来帮助他自动将指定文件夹中的文件按照类型进行分类。具体来说，他想将图片文件（以.jpg或.png结尾）、音频文件（以.mp3或.wav结尾）和文本文件（以.txt结尾）分别移动到对应的类别文件夹中。请你编写一个C程序，实现小明的需求。程序需要满足以下要求：1、将源文件夹中的文件按照类型分类，并移动到对应的目标文件夹中。2、源文件夹和目标文件夹的路径由程序输入时提供，可以相对路径或绝对路径。3、程序需要递归地处理子文件夹中的文件。4、如果目标文件夹不存在

2024-05-20 23:04:24 492

原创 Linux程序开发（九）：进程及线程编程解决卡片游戏和时钟倒计时问题

2.1. 编写一个程序，写方式打开文件a.txt，开启四个线程，每个线程将自己的线程ID向文件中写入5遍，要求必须按顺序循环写入。如：abcdabcdabcdabcdabcd。2.2. 如下有一个整型全局变量，编写双线程程序，一个线程递增该变量，另一个线程打印该变量，要保证按变量值递增顺序打印到屏幕，不重复，不跳跃。2.3. 编写一个程序，创建三个线程，第一个线程屏幕打印0～9十个数字，第二个线程紧接着打印a~z二十六个小写字母，第三个线程最后再打印A～Z二十六个大写字母。2.4. 下面的C程序hom

2024-05-19 19:41:39 1207

原创 Linux程序开发（八）：操作系统进程通信编程

1. 问答题1.1. 操作系统中进程通信的作用？1.2. Linux进程间通信有哪几种方式？这几种方式之间的特点是什么？1.3. 查看以下代码：2. 编程题2.1. 利用dup/dup2实现往文件中写入数据。要求：在代码中执行两次以下语句：2.2. 编写程序实现如下功能：创建父子进程，父子进程之间通过管道进行通信，父程向子进程发送英文字符串，子进程接收到该字符串后，将该字符串倒序，并附加上自己的进程pid传回给父进程。2.3. 利用无名管道pipe()函数、创建进程fork()函数，实现ps

2024-05-19 19:34:18 1078

原创 Linux程序开发（七）：alarm /setitimer 编写文字时钟程序

1. 问答题1.1. 简述什么是可靠信息和不可靠信息，并试验验证SIGINT是可靠还是不可靠信息。2. 编程题2.1. 编写程序实现如下功能：2.2. 编写一个程序，实现以下功能：由父进程创建两个子进程，通过在终端输入“Ctrl+\”组合键向父进程发送SIGQUIT信号；父进程接收到这个信号后，向其两个子进程分别发送整数值为35的信号，子进程获得对应的信号后，终止运行；父进程调用wait函数等待两个子进程都终止后，再自我终止。2.3. 编写一个程序，实现以下功能：2.4. 利用alarm函数（也

2024-05-18 16:28:40 818

原创 Linux程序开发（六）：进程编程和系统日志守护进程

1.1. 编写一个程序，创建两个子进程，父进程在屏幕上输出“I am parent process.”，两个子进程分别输出” I am child process 1.”、” I am child process 2.”，要求父进程在两个子进程输出完字符后再输出自己的字符。1.2. 父进程创建3个子进程，3个子进程需要打开文件a.txt并写入字符串，要求字符串能表明身份同时写明自己的进程号，最后父进程需要在该文件里面写入“I am father process, mypid is”+进程号。要求不能产生僵

2024-05-18 16:23:38 1042

原创 Linux程序开发（五）：采用库函数方式编写文件操作

Linux程序开发（五）：采用库函数方式编写文件操作1. 编程题1.1. 编写类似ls命令的程序myls，能够实现在屏幕上显示目录下文件功能1.2. 编写程序createfiles，能够实现一次性创建目录和文件功能1.3. 编写程序myrmdir能够删除某个目录，以及目录下所有的文件1.4. 编写程序cpdir，实现目录拷贝功能1.5. 采用库函数方式编写文件操作主程序`dowithfiles`，具备创建目录、复制目录、删除目录、更名目录、复制文件、删除文件、更名文件（先复制后删除）七大功能

2024-05-17 10:03:20 747

原创 Linux程序开发（四）：IO编程和文件流操作

2.1. 编写程序实现拷贝文件功能，该程序运行时有两个参数，分别为源文件和目标文件，程序能够显示打开、读取、写入、关闭文件操作时的错误。假定编译后的程序名为mycopy，使用方法如：2.2. 编写程序实现删除文件功能，该程序运行时有多个参数，可以删除多个参数代表的文件。2.3. 编程要求：2.4. 编程要求：2.5. 文件IO编程：补全下面代码，从一个文件（源文件）中读取后10KB数据并复制到另一个文件（目标文件）。2.6. 创建新文件aa.txt，内容“Hello World!”，该文件具有用户

2024-05-17 09:40:32 576

原创 Linux程序开发（三）：MakeFile编程及Githup项目编码

Linux程序开发（三）：MakeFile编程及Githup项目编码

2024-05-16 20:58:37 1081

原创 Linux程序开发（二）：Linux文件处理命令和正则表达式

1. 文本处理命令（grep cut sort wc diff cmp）和正则表达式2. 下图为Linux系统目录树结构的一部分。3. 编程题

2024-05-16 20:52:04 1290 1

原创 Linux程序开发（一）：Linux基础入门安装和实操手册

1、Linux与Unix的关系？2、Linux内核版本和发行版本的差别？3、解释GPL、POSIX、LBS。4、安装自己的Linux运行环境，该任务在自己的机器上完成，架设完毕后写出主要安装步骤并截图。==（1）下载VMWARE，安装centos7====（2）关联centOS镜像====（3）安装centOS镜像====（4）直接回车====（5）镜像检测，在这里可以直接按下Esc键，跳过检测====（6）等待一会, 就会出现以下界面====（7）以root用户身份登录: 输入 roo

2024-05-15 20:41:54 1177

原创 JAVA实验项目（三）：基于Java 设计的学生成绩管理系统

前言 2第一章系统的需求分析 51.1成绩管理系统的背景分析 51.2学生成绩管理的必要性 61.3学生成绩管理系统设计的目标分析 71.4学生成绩管理系统的系统需求 7第二章系统技术以及运行环境的需求分析 72.1 phpStudy功能的简介 72.2 DataGrip功能的简介 92.3 IDEA功能的简介 102.4数据库应用系统开发的简介 112.4.1 MySQL数据库管理系统 112.4.2 DBMS数据库管理系统 11第三章总体设计及规

2024-05-15 20:23:42 2184 3

原创 JAVA实验项目（二）：抽象类、接口的定义与使用

定义传播媒体类Media为抽象类，其属性包括：id即书号或刊号，title即名称。方法包括：抽象方法showInformation(),显示当前对象的属性值；静态方法showType(),显示当前对象的类型，如“Book”或“Newspaper”。类Book、类Newspaper都是Media的子类，Book类特有的属性包括：press即出版社，authors即作者。在测试类中创建Book和Newspaper的对象，显示每个对象的类型，并显示每个对象的信息。 2. 设计和实

2024-05-14 15:42:37 1261 1

原创 JAVA实验项目（一）：JAVA面向对象特征性实验

1. 设计学生类Student,以及它的子类：本科生Undergraduate和研究生Graduate。各类的要求如下：（1）定义类Student,属性有学号、姓名、出生日期、所属院系，提供getInfo（）方法输出学生的属性信息。（2）本科生Undergraduate和研究生Graduate是Student类的子类，本科生增加辅导员counselor属性，研究生增加导师supervisor属性，要求在Undergraduate和Graduate中重写Student的方法getInfo().（3）在测

2024-05-14 15:25:07 1576

原创数据可视化（十二）：Pandas太阳黑子数据、图像处理——离散极值、核密度、拟合曲线、奇异值分解等高级操作

1. 给定一组离散数据点，使用 scipy.interpolate 中的插值方法（如线性插值、样条插值等）对其进行插值，并绘制插值结果。2. 使用 scipy.optimize 中的优化算法，找到函数的最小值点，并在图中标出最小值点。3. 绘制正态分布数据的直方图和概率密度函数曲线4. 对一组实验数据进行曲线拟合，使用 scipy.optimize.curve_fit 函数拟合一个非线性函数，并绘制原始数据和拟合曲线。5. 对以下函数进行数值积分，并绘制函数曲线以及积分结果的区域。6. 使用 sc

2024-05-13 22:56:53 1448 4

原创数据可视化（十一）：Pandas餐饮信息表分析——交叉表、离群点分析，多维分析等高级操作

问题1：按类型聚合餐饮店数量并画出水平直方图问题2：按城市聚合餐饮店数量，画出垂直柱状图问题3：交叉表查看不同城市不同餐饮店的餐饮数量问题4：找出点评最多的10个餐饮店问题5：找出人均离群点（过大的数），并删除问题6：按类型分组，计算人均最高最低均值，画成对比水平直方图问题7：以服务为横坐标，口味为纵坐标，画出散点图问题8：以人均为横坐标，服务口味环境为纵坐标，以不同颜色画出散点图问题9：一线城市北上广深，一个画幅小4个饼图，画出'川菜', '湘菜', '江

2024-05-13 17:51:48 835 2

原创数据可视化（十）：Pandas数据分析师职位信息表分析——箱线图、水平柱状图、学历城市双维分析等高级操作

问题1：将firstType列的空值填充为 "未知"问题2：处理positionId列重复值（按照positionId去重），保留第一次出现的重复行问题3：获取平均工资，形成新列 average_salary问题4：城市分布情况画出水平柱状图对比问题5：平均薪资概率图（将平均薪资分成50个柱子）问题6：按城市画出平均工资箱线图问题7：按学历画出平均工资箱线图问题8：按工作年限画出平均工资箱线图问题9：学历、城市双维度画出平均工资箱线图问题10：直方图显示各个城市薪资最小值最大值平均

2024-05-13 17:50:56 776

原创数据可视化（九）：Pandas北京租房数据分析——房源特征绘图、箱线图、动态可视化等高级操作

问题1：填充空值（如有，否则不处理）；删除重复信息（如有，否则不处理）问题2：更改列名：房屋类型厅室: 户型，房屋类型精装修: 装修问题3：删除 URL、房屋类型面积列问题4: 区域 ‘列’ 分为三部分，请拆分成 ‘行政区域’、‘商圈’、‘小区’ 三个列问题5: 按要求格式化数据问题6：选择 '房源编号', '行政区', '商圈', '小区', '户型', '面积', '租金', '单价', '装修', '朝向', '楼层位置', '总楼层', '电梯', '车位', '用水', '用电'

2024-05-13 17:50:02 2109 7

原创商务分析方法与工具（十）：Python的趣味快捷-公司财务数据最炫酷可视化

商务分析方法与工具（十）：Python的趣味快捷-公司财务数据最炫酷可视化实验10 数据可视化实验目的一、读实验9的数据，选择相关的变量，画折线图、散点图、柱状图、条形图、饼图、箱线图二、绘制组合图形，任选1题的三个图画在一张图纸上1.折线图2.散点图3.柱状图4.直方图5.饼图6.箱线图7.组合图实验结论

2024-05-13 17:09:04 553 2

原创商务分析方法与工具（九）：Python的趣味快捷-Pandas处理公司财务数据集思路

2024-05-12 13:22:42 1304 1

原创商务分析方法与工具（八）：Python的趣味快捷-年少不知numpy好，再见才觉很简单

1.创建5行5列的全0数组，全1数组（1）代码展示：（2）结果显示：2.创建5行6列的随机数数组a，查看数组的维度，数组元素的个数（1）代码展示：（2）结果显示：3.数组的维度操作:将数组a的行变列，返回数组a的逆序数组，返回数组a的最后一行元素，返回a第2到第4行元素，（1）代码展示：（2）结果显示：4. 数组运算（与常数的四则运算，与数组的四则运算，判断数组是否相等）（1）代码展示：（2）结果显示：5.数组c=np.array([1,2,3,4,5,6,7]),求数组c的所有元

2024-05-11 16:04:23 583

原创商务分析方法与工具（七）：Python的趣味快捷-异常处理结构

1. 写一段程序：读文件的内容。当你打开的test.txt文件不存在时，python报错“文件不存在”，并显示原因（1）代码展示：（2）结果显示：2. 写一段程序，进行除法运算的异常检测。（见PPT）（1）代码展示：（2）结果显示：3. 写一个断言，判断 a==b，否则，显示“a不等于b”（1）代码展现：（2）结果显示：4. 写一个raise语句：a/b除法运算,如果b==0, 出现异常提示。（1）代码展示：（2）结果展示:四、实验中的问题和体会问题1：异常捕获的常用结构？体

2024-05-10 12:53:32 1079 2

原创商务分析方法与工具（六）：Python的趣味快捷-字符串巧妙破解密码本、身份证号码、词云图问题

1.输入一个包含标点符号的英文句子，统计输出句子中的每个单词个数（1）代码展示：（2）结果显示2. 18位身份证中有出生年月信息，其中第17位代表性别，奇数为男，偶数为女。用户任意输入一个身份证号，可以输出其出生年月和性别。（1）代码显示：（2）结果显示：3. 凯撒密码：编写函数，实现英文字符串加密和解密，k自定义（1）加密代码展示：（2）加密结果显示：（3）解密代码展示：（4）解码结果展示：4。编写程序，生成10个8位密码（26个字母大小写、9个数字、常用符号组成），并写入到文本文

2024-05-09 15:13:38 1094 1

原创商务分析方法与工具（五）：Python的趣味快捷-文件和文件夹操作自动化

1.用两种方式遍历并输出文本文件test.txt（英文）的所有行内容（1）代码展示：（2）文本文件test.txt显示：（3）结果显示：2.将字符串“Hello World\n文本文件\n 世界真美好”写入new.txt，然后再读取并输出。（1）代码展现：（2）new.txt文本文件展现：（3）运行结果显示：3.读文本文件“静夜思.txt”所有内容，写入到“新静夜思.txt”文件，在 “新静夜思.txt”文件中，写入内容“五月天山雪，无花只有寒”，查看文件内容，文件指针移到第8个字节位置

2024-05-08 23:06:07 1366

原创商务分析方法与工具（四）：Python的趣味快捷-简单函数你真的会用吗？

1.实现isOdd()函数，参数为整数，如果整数为奇数，返回True，否则为False1.函数代码：2.结果显示：2.实现multi()函数，参数个数不限，返回所有参数的乘积1.函数代码：2.结果显示：3.定义一个函数将给定的一个成绩对应的转换成等级（A：大于等于90分、B：大于等于80分、C：大于等于60分、D：60分以下）1.函数代码：2.结果显示：4.求润年Leapyear(n)，输入年份，统计该年是不是润年，如果是润年，返回True；否则返回False1.函数代码：2.结果显示

2024-05-07 17:24:57 1790

原创商务分析方法与工具（三）：Python的趣味快捷-循环控制结构解决随机摇奖

1. 输入一个年份，判断是否是闰年。（能被400整除，或者能被4整除但不能被100整除）（1）不是闰年的例子（2）是闰年的例子2．定义一个函数将给定的一个成绩对应的转换成等级（A：100-85、B：84-70、C：69-60、D：59-0）（1）代码情况：（2）分类结果：3.用分支程序表达下列式子（输入x的值，可以计算y的值）（1）代码情况（2）分类结果4．求N的阶乘5．求出100以内所有奇数之和6．打印九九乘法表7.输出1~100之间能被7整除但不能同时被5整除的所有整数8.猜数

2024-05-06 23:18:31 969 1

原创商务分析方法与工具（二）：Python的趣味快捷-序列结构解决电影推荐

1. 编写程序，生成包含1000个0—100之间的随机整数，并统计每个元素的出现次数（分别用集合和字典来进行次数的统计）2．编写程序，用户输入一个列表和两个整数作为下标，然后使用切片获取并输出列表中借阅介于两个下标之间的元素组成的子列表。例如，用户输入[1，2，3，4，5，6] 和2、5，程序输出[3,4,5,6]3.编写程序生成包含20个随机数的列表，然后将前10个元素升序排列，后10个元素降序排列4.成绩统计分析：有10名同学的python课程成绩分别为：94, 89, 96, 88, 92, 8

2024-05-05 14:31:59 1272 2

原创商务分析方法与工具（一）：Python的趣味快捷-运算符、表达式与内置对象

实验1 运算符、表达式与内置对象一、实验目的1. 会安装Python开发环境；2. 掌握Python中的变量、数字、字符串、运算符、表达式、内置函数和基本输入输出的用法二、实验准备1.复习教材1-2章的内容2.练习书上第1、2的程序代码（另存为WORD）三、实验内容1. 用户输入一个三位自然数，计算并输出其百位、十位、个位的数字，并求和2. 已知三角形的两边长及其夹角，求第三边3. 任意输入3个英文单词，按字典顺序排序输出4. 任意输入一串数字，按降序排序5. 输入一个温度值，进行

2024-05-04 14:51:50 983 2

原创数据可视化（八）：Pandas时间序列——动态绘图，重采样，自相关图，偏相关图等高级操作

数据可视化（八）：Pandas时间序列——动态绘图，重采样，自相关图，偏相关图等高级操作1. 时间序列分析1问题1：将列 date 转化为日期时间类型，并设置为索引问题2：按年份统计开盘价（open列）均值，并绘制直方图问题3：重采样，按月分析 open 列均值，并绘制折线图2. 时间序列分析2问题1：将列 Period 转化为日期时间（datetime）类型，并按列 Period 排序。问题2：将列 Period 转化为时期（Period）类型，并设置为索引问题3：删除还有缺失值

2024-04-22 22:22:58 3470 2

原创数据可视化（七）：Pandas香港酒店数据高级分析，涉及相关系数，协方差，数据离散化，透视表等精美可视化展示

一、基本数据处理：读取“香港酒店数据”，按要求解决以下问题。1. 按照数据的内容，重新设置数据的索引，重新设置列名称为'名字','类型','城市','地区','地点','评分','评分人数','价格'。2. 查看所有类型为“商务出行”的酒店。3. 查看所有类型为“浪漫情侣”，地区在湾仔的酒店。4. 查看所有地址在观塘或者油尖旺，评分大于4的酒店。5. 查看类型缺失的数据。6. 用“其他”填充类型和地区。7. 用评分均值填充缺失值。8. 删除价格和评分人数的缺失值。9. 保存到“酒店数据1.

2024-04-21 23:25:16 1993 10

原创数据可视化（六）：Pandas爬取NBA球队排名、爬取历年中国人口数据、爬取中国大学排名、爬取sina股票数据、绘制精美函数图像

数据可视化（六）：Pandas爬取NBA球队排名、爬取历年中国人口数据、爬取中国大学排名、爬取sina股票数据、绘制精美函数图像目录数据可视化（六）：Pandas爬取NBA球队排名、爬取历年中国人口数据、爬取中国大学排名、爬取sina股票数据、绘制精美函数图像1. 爬取NBA球队排名页面，并进行分析2. 爬取以下网址的历年中国人口数据进行并进行分析3. 获取大学排名数据并进行分析4. 获取sina股票数据并进行分析5. matplotlib模仿绘图6. matplotlib模仿绘图

2024-04-20 22:21:44 1785 6

原创数据可视化（五）：Pandas高级统计——函数映射、数据结构、分组聚合等问题解决，能否成为你的工作备用锦囊？

数据可视化（五）：Pandas高级统计——函数映射、数据结构、分组聚合等问题解决，能否成为你的工作备用锦囊？1. pandas数据结构问题1：创建3个不同的Series，长度都是100。问题2：利用这3个Series作为3列创建一个DataFrame。问题3：将上面DataFrame的列名改为bedrs、bathrs和price_sqr_meter。问题4：利用上面3个Series作为1列创建一个DataFrame问题5：上面的DataFrame的index到99为止，请将其reindex为0～

2024-04-19 21:40:17 1425 1

数据分析专栏二-数据预处理与探索性分析数据集

数据分析专栏二——数据预处理与探索性分析数据集

2024-09-07

数据集-数据可视化（八）：Pandas时间序列-动态绘图，重采样，自相关图，偏相关图等高级操作

数据可视化（八）：Pandas时间序列——动态绘图，重采样，自相关图，偏相关图等高级操作

2024-06-30

数据集-数据可视化（九）：Pandas北京租房数据分析-房源特征绘图、箱线图、动态可视化等高级操作

数据集-数据可视化（九）：Pandas北京租房数据分析——房源特征绘图、箱线图、动态可视化等高级操作

2024-05-28

商务分析实验九-公司财务数据集.zip

3. 用excel打开salary, 再增加2条记录，其中有一条是自己的姓名。Python分别读入salary、salary-new、salary-buchong 三个表为数据框,合并三个数据框（该数据实验10也会用到）（1）添加2条记录，一条是自己的姓名：（2）合并数据： 4．查看数据框的头3行和后两行，查看df的索引、值 5. df有没有异常值，异常值删除。有没有缺失值，缺失值用平均数填充 6．查看所有数值变量的统计信息（平均值、标准差、最小值、最大值、25%、50%、75%等信息） 7. 按应发工资大小排序，找出工资最高的3人 8.查看基本工资>3000的人的姓名，查看基本工资3000-6000的人的信息。 9.显示所有人的姓名和实发工资 10.查看财务处人员的姓名和部门 11.查看财务处基本工资的平均值、最大值 12.按部门分组，显示分组后的各组人员的所有信息，计算各组人数、各组应发工资的最大值。 13.按部分、职务分组，计算各组所有数值列的平均值 14.查看聚集函数aggregate的结果

2024-05-13

数据源-数据可视化（七）：Pandas香港酒店数据高级分析，涉及相关系数，协方差，数据离散化，透视表等精美可视化展示

数据源——数据可视化（七）：Pandas香港酒店数据高级分析，涉及相关系数，协方差，数据离散化，透视表等精美可视化展示

2024-04-23

实验3客户RFM实验案例代码

一、实验目的 1掌握RFM分析方法和k-means聚类的方法，能够进行价值识别 2掌握Python 聚类的方法 3.EM聚类（基于高斯混合模型的EM聚类）二、知识准备 RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在客户分类中，RFM模型是一个经典的分类模型，利用通用交易环节中最核心的三个维度——最近消费(Recency)、消费频率(Frequency)、消费金额(Monetary)细分客户群体，从而分析不同群体的客户价值。三、实验准备 1.使用算法：RFM模型、聚类算法 2. 数据来源 RFM数据集为英国在线零售商在2010年12月1日至2011年12月9日间发生的所有网络交易订单信息。该公司主要销售礼品为主，并且多数客户为批发商。数据集介绍及来源： https://www.kaggle.com/carrie1/ecommerce-data https://archive.ics.uci.edu/ml/datasets/online+retail# 特征说明： InvoiceNo:订单编号，由六位数字组成，退货订单编号开头有字母C StockCode

2024-04-22

数据集-数据可视化（五）：Pandas高级统计-函数映射、数据结构、分组聚合等问题解决，能否成为你的工作备用锦囊？

数据集——数据可视化（五）：Pandas高级统计——函数映射、数据结构、分组聚合等问题解决，能否成为你的工作备用锦囊？

2024-04-21

数据可视化（六）：Pandas爬取NBA球队排名、爬取历年中国人口数据、爬取中国大学排名、爬取sina股票数据、绘制精美函数图像

2024-04-21

python主成分分析数据集-各地区年份平均收入数据

2024-04-13

SparkSQL最全面案例数据集

SparkSQL是Apache Spark的一个模块，用于处理结构化数据。它提供了一个DataFrame API来编写SQL查询，这些查询可以处理来自各种数据源的数据，并返回DataFrame作为结果。DataFrame是一个分布式的数据集合，可以包含多种类型的数据，并提供了一种方便的方式来处理和分析这些数据。然而，关于“SparkSQL最全面案例数据集”的问题，实际上并没有一个官方或广泛认可的“最全面”案例数据集。SparkSQL的应用范围非常广泛，可以应用于各种数据处理和分析的场景，因此案例和数据集也是多种多样的。不过，我可以为你介绍一些常见的SparkSQL案例和数据集类型，帮助你更好地了解如何在不同场景中使用SparkSQL。电影评分数据集：这是一个常见的分析案例，用于分析电影的评分、评论和用户行为等。通过SparkSQL，可以对电影评分进行统计分析，找出最受欢迎的电影、评分最高的电影等。电商交易数据集：电商交易数据通常包含订单信息、用户信息、商品信息等。利用SparkSQL，可以对交易数据进行聚合分析，计算销售额、用户购买行为、商品销量等。社交网络数据集：社交

2024-03-25

最全面的大数据Spark-Core实战案例数据集

对于大数据Spark-Core的实战案例数据集，全面性和具体性可能因不同的应用场景、业务需求和数据源而异。然而，我可以为你提供一个概述和一些常见的实战案例数据集的示例，以帮助你理解其可能的应用范围。 Spark-Core是Apache Spark的核心组件，提供了分布式计算的基础功能。它支持多种数据源和格式，可以处理大规模数据集并进行高效的并行计算。因此，Spark-Core实战案例数据集的选择通常取决于具体的业务需求和场景。以下是一些常见的Spark-Core实战案例数据集的示例：点击流日志分析：数据集：包含用户点击网站或应用的日志数据，通常包括时间戳、用户ID、页面URL、点击事件类型等信息。应用场景：用于分析用户行为、流量统计、热门页面等。实战案例：通过分析点击流日志数据，可以统计PV（页面浏览量）、UV（独立访客数）、用户访问路径等信息，进而优化网站结构、提升用户体验。电商交易数据分析：数据集：包含电商平台的交易数据，如订单信息、用户购买记录、商品信息等。应用场景：用于分析销售趋势、用户购买行为、商品关联推荐等。实战案例：通过Spark-Core处理交易

2024-03-22

flink-sql-connector-kafka-2.12-1.13.1.jar

flink-sql-connector-kafka_2.12-1.13.1.jar 是 Apache Flink 的一个 Kafka SQL Connector 的 JAR 包，用于在 Flink SQL 环境中与 Apache Kafka 集成。这里面的数字 2.12 和 1.13.1 分别表示了这个 JAR 包所依赖的 Scala 和 Flink 的版本。具体来说： flink-sql-connector-kafka：表示这是一个 Flink 的 SQL Kafka 连接器。 _2.12：表示这个 JAR 包是为 Scala 2.12 版本编译的。Scala 是 Flink 和很多其他大数据工具常用的编程语言。 1.13.1：表示这个 JAR 包是 Flink 1.13.1 版本的。当你需要在 Flink SQL 环境中从 Kafka 读取数据或向 Kafka 写入数据时，你可以使用这个 JAR 包。这个连接器支持 Flink SQL 的标准 DDL (Data Definition Language) 和 DML (Data Manipulation Language)

2024-03-15

flink-connector-hive-2.12-1.13.1.jar

flink-connector-hive_2.12-1.13.1.jar 是 Apache Flink 的一个 Hive 连接器 JAR 包，用于在 Flink 中与 Apache Hive 集成。这里面的数字 2.12 和 1.13.1 分别表示了这个 JAR 包所依赖的 Scala 和 Flink 的版本。具体来说： flink-connector-hive：表示这是一个 Flink 的 Hive 连接器。 _2.12：表示这个 JAR 包是为 Scala 2.12 版本编译的。 1.13.1：表示这个 JAR 包是 Flink 1.13.1 版本的。 Hive 是一个基于 Hadoop 的数据仓库工具，用于查询和管理存储在 Hadoop 文件系统中的结构化数据。通过 Flink 的 Hive 连接器，你可以直接在 Flink 中访问 Hive 中的数据表，从而执行流处理和批处理任务。这个连接器提供了以下几个主要功能：元数据同步：Flink 可以读取 Hive 的元数据，包括数据库、表和分区的信息，从而在 Flink SQL 中直接使用这些表。数据读取和写入：Fl

2024-03-15

flink-connector-hive_2.11-1.13.1.jar

flink-connector-hive_2.11-1.13.1

2024-03-14

hive-exec-2.1.1.jar

hive-exec-2.1.1 是 Apache Hive 的一部分，特别是与 Hive 的执行引擎相关的组件。Apache Hive 是一个构建在 Hadoop 之上的数据仓库基础设施，它允许用户以 SQL（结构化查询语言）的形式查询和管理大型数据集。Hive 提供了一种 SQL 接口来访问数据，这些数据通常存储在 Hadoop 的分布式文件系统（HDFS）中。 Hive 的主要组件包括： Hive Metastore：存储元数据（如表的模式、分区信息等）。 HiveServer2：提供客户端连接和 SQL 查询执行。 Hive Execution Engine：这是实际执行查询的组件，它读取数据，处理查询，并返回结果。 hive-exec-2.1.1 是 Hive 执行引擎的一个特定版本（2.1.1）。这个组件负责解析 SQL 查询，生成执行计划，并协调与 Hadoop 集群的交互以执行这些计划。它还包括了用于数据处理的逻辑和与 Hadoop 组件（如 MapReduce、Tez 或 Spark）的集成。具体来说，hive-exec 可能包括以下功能：查询解析和优化：将

2024-03-14

还在为搭建集群的期末作业发愁吗？最简单的搭建hadoop+spark+hive大数据集群搭建文档.docx

最简单的Hadoop+Spark大数据集群搭建方法，看这一篇就够啦，给出一个完全分布式hadoop+spark集群搭建完整文档，从环境准备（包括机器名，ip映射步骤，ssh免密，Java等）开始，包括zookeeper,hadoop,hive,spark，eclipse/idea安装全过程，3-4节点，集群部署自己确定，比如集群涉及的多种角色namenode，secondary namenode, datanode,resourcemanager等的节点分配，并用表格形式给出。给出可访问的ip,用户名密码。（阿里云直接给公网ip，校园网需给公网和校园网ip）。要求图文并茂，详细操作步骤，说明，截图。最近有小伙伴私信我，flink 软件安装在虚拟机上很简单，就是安装包解压即可，有没有 hadoop + spark 的安装文档呢？所以今天周六刚好不用上班，花了一天时有需要的小伙伴后续可以在我的资源区下载哦！希望和大家一起进步，有啥不清楚滴地方可以一起交流！这一次梳理搭建过程我觉得很有意义，熟悉了各类配置文件之间的关联，以及大数据组件之间的配置关系，很开心和大家分享此文，那就，继续加油吧！

2024-02-18

大数据kafak必备可视化工具-kafka2.0.7

你是否还在为每次查看Kafka数据而反复敲打命令行感到疲惫？是否期待有一款简单直观的工具，能够让你一目了然地掌握Kafka的运行状态和数据流动？那么，恭喜你，你的期待已经成为现实！我们隆重推出的大数据Kafka必备可视化工具——kafka2.0.7，正是你期待中的那款神器。它采用最新的技术架构，结合人性化的设计，让你无需再为复杂的命令行而烦恼，只需轻松点击，即可查看Kafka的实时数据、消费进度、主题状态等重要信息。 kafka2.0.7拥有以下独特优势：直观可视化界面：告别命令行，用图形化界面展示Kafka的所有关键信息，让你一眼就能看清Kafka的运行状态。实时数据监控：实时更新Kafka的生产和消费数据，让你随时掌握数据的流动情况，为决策提供有力支持。主题管理：轻松管理Kafka的主题，包括创建、删除、修改等操作，让你的Kafka管理更加便捷。性能优化：通过精细化的性能监控，帮助你找出Kafka的性能瓶颈，优化你的大数据处理流程。安全可靠：采用严格的安全机制，确保你的Kafka数据安全无虞，让你放心使用。 kafka2.0.7不仅适用于大数据领域的专业

2024-03-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人