- 博客(182)
- 收藏
- 关注
原创 工资统计实战:5步搞定数据分析(python数据挖掘)
摘要: 本文包含四个编程练习题,涵盖Python基础知识和数据处理。第一题计算员工工资的平均值、高于平均值的数量及排序;第二题处理学生成绩,统计高分人数、找出最低分学生并连接姓名字符串;第三题管理图书信息,按类别分组、统计数量并处理作者和编号数据;第四题统计兴趣小组报名情况,分析受欢迎的小组并整理学生名单。所有题目均要求使用Python内置函数和数据结构操作,涉及列表、字典、集合等数据类型的处理。
2025-05-30 10:30:28
234
1
原创 Python数据结构全解析:列表、元组、字典与集合
本文展示了Python中列表、元组、字典和集合的基本用法示例。列表部分演示了创建空列表、不同类型元素列表、列表推导式、列表操作(append、extend、insert、remove、pop)等。元组部分展示了创建元组的不同方式,包括单元素元组、嵌套元组等。字典部分展示了创建字典、字典推导式、字典合并以及常用字典方法(pop、setdefault等)。集合部分介绍了集合创建、元素操作(add、remove、discard等)以及集合运算(并集、交集、差集等)。通过这些示例可以快速掌握Python主要数据结构
2025-05-30 10:12:16
40
原创 第7章-航空公司客户价值分析
本文介绍航空公司客户价值分析的数据处理方法。首先进行描述性统计分析,计算各变量的空值数、最大值和最小值。其次进行分布分析,包括客户基本信息(入会年份、性别比例、会员等级、年龄分布)和乘机信息(最后乘机时长、飞行次数、飞行公里数)的分布特征。最后进行相关性分析,计算会员等级、飞行次数、积分等变量的Pearson相关系数矩阵,并通过热力图直观展示变量间相关性。分析采用Python的pandas、matplotlib和seaborn库实现数据探索和可视化。
2025-05-28 19:41:12
59
原创 Bootstrap法进行随机模拟
本研究对26名神经功能受损儿童的空间知觉测试数据进行了分析。问题一采用Bootstrap方法计算A组与B组得分的皮尔逊相关系数,得到点估计0.821,95%置信区间为[0.662,0.913]。问题二以B组为因变量、A组为自变量建立一元线性回归模型,回归系数a的Bootstrap点估计为0.656,95%置信区间[0.49,0.847],假设检验p值接近0,表明回归系数显著不为零。分析结果表明两组测试得分存在显著相关性和线性关系。
2025-05-28 19:34:53
348
原创 超市营业额数据分析
文章摘要:本文通过Python对超市营业额数据进行分析,主要完成了三项任务。首先,通过汇总交易额,推出了5名销冠员工。其次,分析了新领导上任15天以来的业绩总增长情况,并绘制了超市整体和每位员工的增长率图表,展示了业绩波动。最后,将所有柜台的销售额分为三个等级,进一步细化了销售数据的分类。通过这些分析,为超市的销售策略和员工绩效评估提供了数据支持。
2025-05-16 16:36:05
227
原创 列表表达式
列表表达式(List Comprehensions)在 Python 中是一种简洁且强大的工具,可以用于创建和操作列表。这些示例展示了列表表达式在处理各种复杂操作时的强大功能。你可以根据需要,将这些示例进行调整和扩展,以满足特定需求。
2025-03-07 11:00:56
39
原创 Python数据分析、挖掘与可视化(慕课版)学习资源包
PPT讲义:详尽的幻灯片内容覆盖了从基础到高级的数据分析概念,帮助你系统地理解和掌握知识。源代码:实践是学习的最佳方式。我们提供了课程中演示的所有案例的源代码,让你能够跟随动手操作,加深理解。数据集:真实世界的数据集用于练习,涵盖各种应用场景,使你能将理论应用于实践,提升解决问题的能力。加入数据分析的学习之旅,开启你的数据洞察之门。这份资源包将伴随你每一步,助你在数据科学的世界里不断前行。祝学习愉快!
2025-02-23 17:43:28
267
2
原创 Python数据分析、挖掘与可视化慕课版第2版学习资料包
1. **解压资源**:首先,你需要下载提供的`Python数据分析、挖掘与可视化(慕课版).rar`压缩文件,并将其解压到本地目录。5. **探索与创新**:在掌握了基本技能后,鼓励大家探索新的数据分析方法,对数据集进行更深入的分析或尝试自己的项目。- **源代码**:实践是学习的最佳方式。- **数据集**:真实世界的数据集用于练习,涵盖各种应用场景,使你能将理论应用于实践,提升解决问题的能力。4. **实战数据集**:用提供的数据集来实践所学的知识,不要害怕犯错,实践是最好的老师。
2025-02-23 17:37:24
58
原创 基于RFM聚类与随机森林算法的智能手机用户监测数据案例分析
基于RFM聚类与随机森林算法的智能手机用户监测数据案例分析摘要近年来,随着数字化和信息化的快速发展,越来越多的人开始使用智能手机。文章基于某公司某年连续30天4万多位智能手机用户的监测数据,通过随机森林与RFM聚类分析模型对智能手机用户的监测数据进行挖掘和分析,有效地统计和归纳了用户对于A类APP的使用情况,模型准确度达到了80%,同时对于智能手机APP的开发和使用提出了相应的建议。
2025-01-15 16:38:52
475
原创 矩阵方程组求解——Markov过程
D:\python\python.exe "D:\python\方程组求解.py"进程已结束,退出代码为 0。
2024-12-21 14:37:52
460
原创 环境生态学下鱼类生存环境主成分分析——基于Doubs数据集实现
水质是维护鱼类健康成长的重要因素,水中的无机盐含量平衡决定了鱼类的生存,保护水资源,净化每一方环境。结合本次实验得出,鱼类的生存环境不尽相同,我们需要保护物种多样性,保护环境。分析这些变量对鱼类生存环境影响,以及不同地域鱼类生存环境的特征。
2024-12-21 13:57:33
226
原创 R语言在数量生态学中的应用
生态学,婀娜多姿。教授生态学是一门引人入胜的艺术,同时也是一门非常难以习得的艺术。现代生态学研究的复杂性,已远远超过中学时代或者电影中对生态系统的轻描淡写。而数量生态学则是另一种版本的故事。由于某些不清楚的原因,部分科班出身的生态学工作者不太愿意使用数学工具帮助量化、理解自然界中的事物。从事生物统计学和数量生态学的教师,应在教授这门课程之前说明数量生态学的必要性,同时提起受众的学习兴趣。
2024-12-16 12:53:55
268
原创 判别分析——基于心脏病数据集实现
UCI 心脏病数据集是一个著名的数据集,用于心脏病的分析和预测。它包含各种医学测量和患者信息。目标是根据这些属性预测患者是否患有心脏病。本实验针对五个特征:sbp,tobacco,IDI,adiposity,age五个属性,判别病人是否患有心脏病。UCI 心脏病数据集包含从四个不同地点收集的数据:克利夫兰、匈牙利、瑞士和 VA 长滩。目标是根据各种医学属性预测患者是否患有心脏病。
2024-11-26 23:37:30
447
原创 决策树——基于乳腺癌数据集与cpu数据集实现
最终的预测结果通过对所有基模型的预测结果进行平均(回归问题)或投票(分类问题)来确定。AdaBoost(Adaptive Boosting)算法是一种集成学习方法,通过结合多个弱分类器(如决策树)的预测结果来提高整体模型的性能和准确性。其基本思想是通过迭代地训练弱分类器,并根据每次迭代的错误率调整样本的权重,使得后续的分类器更加关注被前一轮分类器错误分类的样本。其基本思想是通过构建多个决策树,并将每棵树的预测结果进行平均(回归问题)或投票(分类问题),从而得到最终的预测结果。
2024-11-24 23:44:43
1041
原创 数量生态学:非约束排序——主成分分析(PCA)[环境生态学下鱼类生存环境主成分分析-基于Doubs数据集实现]
多元正态分布矩阵(每个变量都是正态分布的).第一主轴(或主分量轴)是穿过该多元正态分布的浓度椭球的最大维度的直线(拥有方差的最大部分);其余的轴线彼此正交并且相继较短.(椭圆体, 轴线有长有短)对于含有p个变量的矩阵最多含有p个主成分.PCA 对由变量所定义的原始轴系统进行旋转, 使得连续的新轴(主成分)相互正交, 且所获得的连续新轴(主成分)对应着散点最大方差的连续维度.主成分给出了新坐标系统中对象的位置.主成分分析的输入数据为方差矩阵。
2024-11-24 14:50:25
299
原创 主成分分析—PCA(基于Doubs数据集实现)
Doubs.env变量介绍单位slo河流的坡度1/1000flo平均最小流量m³/spH水的 pH 值Mol/Lhar钙浓度mg/Lpho磷酸盐mg/Lnit硝酸盐mg/Lamm铵盐mg/Loxy浓度及其溶解氧mg/Lbdo生物需氧量mg/Ldfs生物离源头距离kmele海拔m。
2024-11-24 12:53:32
166
原创 UCI Heart Disease Data Set—— UCI 心脏病数据集介绍
UCI 心脏病数据集是一个著名的数据集,常用于机器学习和统计分析,特别是在预测心脏病方面。UCI 心脏病数据集包含从四个不同地点收集的数据:克利夫兰、匈牙利、瑞士和 VA 长滩。目标是根据各种医学属性预测患者是否患有心脏病。
2024-11-22 23:53:38
680
原创 模型的评估与选择——交叉验证(基于Python实现)
交叉验证是一种用于估计机器学习模型性能的统计方法。它涉及将数据划分为子集,在一些子集上训练模型,并在剩余的子集上验证模型。这个过程会重复多次,以确保模型的性能是一致的,并且不依赖于特定的数据子集。:类似于k折交叉验证,但折叠的创建方式使得每个折叠中的类别比例与原始数据集中的比例相同。:用于时间序列数据,其中数据点的顺序很重要。数据被分成训练和验证集,方式是尊重时间顺序。每个数据点恰好用一次作为验证集,模型在剩余的数据上训练。个折叠上训练,并在剩余的一个折叠上验证。:k折交叉验证的一种特殊情况,其中。
2024-11-22 22:58:24
806
原创 葡萄酒(wine)数据集——LDA、贝叶斯判别分析
葡萄酒识别数据集(Wine Recognition dataset)通常用于多类别分类问题建模。数据集包括从三个不同的品种(类别)的葡萄酒中测得的13种不同的化学特征,共178个样本。这些化学特征包括酸度、灰分、酒精浓度等。该数据集是由UCI机器学习库提供,并且已经被广泛用于分类和聚类任务,作为基准测试数据集之一。load_wine — scikit-learn 1.5.2 documentationhttps://scikit-learn.org/stable/modules/generated/skle
2024-11-21 19:00:58
428
原创 关联度分析、灰色预测GM(1,1)、GM(1,1)残差模型——基于Python实现
关联度分析、灰色预测GM(1,1)、GM(1,1)残差模型——基于Python实现
2024-11-20 22:39:30
436
原创 R语言数据分析可视化——summarytools包的使用
R语言中的summarytools包通过提供能够用最少的代码生成数据全面摘要的功能,使数据分析更加简单。summarytools包提供了一种简单的方法来生成数据集的摘要统计信息,包括描述性统计、频率表、交叉表、缺失值、异常值、相关性、线性回归、ANOVA、卡方检验等。本文将介绍如何使用summarytools包进行数据分析。
2024-11-16 13:15:24
518
原创 子集选择——基于R语言实现(最优子集选择法、逐步回归法、Lasso回归法、交叉验证法)
产生响应变量Y,使用最优子集选择法与lasso法,对比分析,得出通过最优子集选择法,并通过参数的估计得出,通过lasso法分析得出有4个变量不等于0,说明使用lasso法筛选出来6个变量,得出拟合模型为。通过分析得出有6个变量不等于0,说明使用lasso法筛选出来6个变量,得出拟合模型为。通过分析得出有4个变量不等于0,说明使用lasso法筛选出来6个变量,得出拟合模型为。通过最优子集法分析,并通过参数的估计得出,根据。通过最优子集选择法,并通过参数的估计得出,根据。选择出来的最优模型为y=
2024-11-14 23:59:02
609
R语言地理可视化与线性回归分析:基于北京市高端酒店数据的空间分布与定价因素研究
2025-02-20
决策树回归LATEX编写-基于乳腺癌数据集实践
2024-11-25
不同自定义概率分布的更新过程
2024-10-30
fetch-olivetti-faces数据集
2024-10-29
Python分析假期对美国出生率的影响
2024-10-28
instacart-market-basket-analysis.zip
2024-10-24
(Auto)汽车数据集
2024-10-21
ROC曲线深度解析,“Breast-Cancer.xlsx” 数据集
2024-10-05
chinaMap中国地图基于HTML5,JavaScript,css实现
2024-10-03
Tableau安装包,资源获取不易,有偿获取。
2024-09-22
PBIDesktopSetup-x64.exe
2024-09-22
PanoplyWin-5.5.1.zip
2024-09-22
数据分析KMeans实现,K-means聚类对数据进行聚类处理
2024-07-21
随机森林源代码课件资料,随机森林是一种集成学习方法,它通过构建多个决策树并将它们的预测结果进行汇总
2024-07-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人