- 博客(204)
- 收藏
- 关注
原创 统计学专业外语期末考核
本文介绍了统计学专业外语考核内容,包括术语翻译(如置信区间、P值等中英互译)、定义匹配(如中心极限定理、随机变量等概念解释),以及文献翻译(线性回归和假设检验的英汉互译)。此外,还包含一篇关于机器学习与传统统计模型比较的阅读理解材料,指出随机森林等树集成方法在复杂数据预测中优于逻辑回归。全文涵盖统计学术语、概念和实际应用,测试学生对专业外语的理解和运用能力。
2025-10-14 10:55:14
605
原创 基于keyindicators数据集实现的图形绘制-散点图/气泡图/雷达图
本文展示了使用R语言进行大数据可视化的多种方法。首先通过基本散点图和ggplot2包分析了国民人均收入与预期寿命的关系,并演示了添加趋势线、边际地毯和标签的美化技巧。随后介绍了三维散点图和气泡图的绘制方法,用于展示三维变量关系。最后通过自定义标准化函数处理数据,并绘制雷达图进行多维度比较。这些可视化技术涵盖了从二维到多维的数据展示方式,为大数据分析提供了直观的图形工具。
2025-10-11 09:11:40
150
原创 数据预处理与偏度分析实战
本文对贷款数据集进行了数据预处理和探索性分析。首先计算了年收入变量的偏度(28.9),显示严重右偏。随后对多个数值型变量进行偏度分析,发现年收入和总支付额偏度较高。为改善可视化效果,去除年收入超过40万美元的极端值,绘制原始数据和对数转换后的直方图对比。分析过程使用了dplyr、e1071、ggplot2等R包,通过Box-Cox变换探索数据转换方法,最终展示原始数据与对数转换后的分布差异。结果表明对数变换能有效改善高度偏态数据的分布特征。
2025-09-23 13:59:09
49
原创 解决 LaTeX 编译内容不显示的问题
摘要:LaTeX编译中文不显示通常与编码设置或宏包配置有关。解决方法包括:1)使用ctex宏包并搭配XeLaTeX/PDFLaTeX;2)设置UTF-8编码;3)直接使用ctexart等中文文档类;4)确保使用支持中文的编译器。这些方法能有效解决LaTeX中的中文显示问题。(150字)
2025-09-13 11:15:17
484
原创 抽样技术——基于LoanStats数据集实现2
本文针对Lending Club平台2007-2015年的贷款数据(包含23万+观测值)进行抽样研究。首先通过数据预处理步骤,包括读取LoanStats数据集、筛选有效信用评级(A-G级)的观测值。由于原始数据量庞大导致处理成本高,研究提出采用概率抽样方法提取代表性样本,以提高分析效率。文中展示了R语言数据预处理代码,包括数据结构查看和关键变量筛选,为后续抽样分析奠定基础。
2025-09-13 11:12:22
68
原创 大数据探索性分析——抽样技术应用
本文对Lending Club贷款数据集(LoanStats3c)进行了数据预处理,主要针对数值型变量的缺失值进行中位数填补。通过R语言实现自动检测数值列,对存在缺失值的列使用相应中位数进行填补,并记录处理过程。对于全为缺失值的列给出提示信息。处理后再次检查确认所有数值列的缺失值已被填补,最终将清洗后的数据集和数值列索引分别保存为CSV文件。该预处理为后续数据分析提供了完整可用的数据集。
2025-09-10 22:44:08
214
原创 Chatgpt-gpt5的代码处理能力太强啦
本文提供了一个完整的时间序列分析与预测的Python模板,包含数据预处理、模型构建和预测评估全流程。主要功能包括:数据读取与缺失值处理、ADF平稳性检验、STL/季节分解、ETS指数平滑和SARIMA季节ARIMA建模(支持自动参数搜索)、滚动验证及基于分解残差的异常检测。模板支持多种时间频率(日/周/月/小时数据),并提供了两种SARIMA实现方式:优先使用pmdarima自动寻参,失败时回退到简单网格搜索。依赖库包括pandas、statsmodels等,安装pmdarima后可实现自动参数优化。该模板
2025-08-10 22:50:06
333
原创 BP神经网络-准确率、查准率、查全率、F1分数评价标准
BP神经网络性能评价标准主要包括准确率、查准率、查全率和F1分数等指标。一般认为,准确率达到80%以上(>0.8)为较好表现,查准率和查全率在0.7-0.9区间较为理想,F1分数高于0.75则表明模型综合性能较好。不同任务需关注不同指标:多分类任务侧重准确率和宏平均指标,回归任务关注MSE/MAE和R²,异常检测更重视查全率,排序任务评估NDCG/MAP,聚类则依赖轮廓系数等。评价标准需结合具体业务场景和数据分布综合判断,0.8以上通常视为良好表现,但高风险场景需更严格标准。
2025-07-06 10:45:16
186
原创 神经网络分类问题求解——以鸢尾花为例
摘要:本文实现了一个三层BP神经网络模型,用于处理分类和回归任务。代码包含神经网络初始化、正向传播、误差反向传播等核心算法,支持多特征输入和多目标输出。数据预处理部分实现了特征编码、标准化和数据集划分功能。模型采用tanh作为激活函数,并包含动量因子优化训练过程。测试结果表明该神经网络能够有效处理结构化数据,输出结果符合预期。代码结构清晰,包含完整的训练和测试流程,可作为神经网络基础实现的参考。
2025-06-28 16:50:40
49
原创 应用时间序列分析
摘要:本文通过多张图片展示了不同场景下的视觉内容,涵盖自然风光、城市建筑、日常生活等多个主题。这些图像以高品质呈现,部分为全景构图,体现了摄影的多样性和艺术性。每张图片均采用居中排版,清晰度较高,适合用于视觉展示、设计参考或内容插图。图片格式统一,便于读者浏览和对比不同视角的视觉元素。
2025-06-23 20:35:01
148
原创 解决虚拟环境中文绘图显示问题
在虚拟环境中解决Matplotlib中文显示问题的方案:当在conda、Codespaces或AIStudio等环境中绘图时,无法全局设置中文字体,可采用局部解决方案。方法是将SimHei.ttf文件放入工作目录,通过FontProperties指定字体路径,并在绘图时设置textprops={'fontproperties':myfont}参数。同时需处理图表标题、轴标签和图例的字体设置,并确保负号正常显示。这种方案避免了修改系统字体配置,适用于各种虚拟开发环境。
2025-06-15 20:08:40
317
2
原创 python数据挖掘编程题(@飞桨AI Studio星河社区 @Github Codespace)
摘要:本文包含两个Python编程任务。第一个任务是编写程序读取文本文件,将单词首字母大写后输出到新文件,并统计单词总数。代码展示了文件读写和字符串处理操作。第二个任务使用pandas处理超市营业额数据:2.1找出交易额最小的3天并显示星期几;2.2绘制各柜台营业额占比饼图,包含中文字体设置和数据可视化实现。两个任务分别展示了基础文件处理和数据统计分析的应用。
2025-06-13 11:26:32
173
1
原创 机器学习核心概念速览
机器学习基础概念与应用 摘要:本文介绍了机器学习的核心概念和基本应用。主要内容包括: 机器学习类型:有监督学习(分类/回归)、无监督学习(聚类/降维)和半监督学习 关键术语:特征向量、目标值、偏差与方差、维度、泛化能力等 数据处理:一维/二维数组操作、稀疏矩阵、特征提取方法 常用算法:线性回归、岭回归和Lasso回归的实际应用案例 模型评估:交叉验证、早停法、学习曲线等优化技术 性能指标:准确率、召回率等评估度量 文中通过Python代码示例展示了numpy数组操作和scikit-learn库的使用,包括儿
2025-06-11 21:11:07
846
原创 杰拉德相似度-协同过滤算法
杰拉德相似度(Jaccard Similarity)是一个常用的相似度度量方法,用于比较两个集合之间的相似性。它的公式如下:\[\text{Jaccard Similarity} = \frac{|A \cap B|}{|A \cup B|}\]其中:- \( A \) 和 \( B \) 是两个集合(例如,用户对电影的评分集合)。- \( |A \cap B| \) 是两个集合的交集,表示同时被两个用户评分的电影数量。- \( |A \cup B| \) 是两个集合的并集,表示至少被一个
2025-06-09 09:06:18
228
原创 scikit-learn机器学习
机器学习基础与线性回归应用 本文介绍了机器学习的基本概念和线性回归算法的应用。主要内容包括: 机器学习基础概念: 样本、特征向量、目标变量等基本术语 偏差与方差、维度、正则化等关键理论 有监督/无监督学习区别及常见算法 线性回归实践应用: 使用简单线性回归预测儿童身高 岭回归(Ridge)在乳腺癌数据集的分类应用 代码示例展示了数据准备、模型训练和预测过程 核心库介绍: NumPy数组操作 scikit-learn的机器学习功能 文章通过实际案例演示了机器学习模型的构建流程,从数据准备到模型评估。
2025-06-06 14:07:18
325
2
原创 Python数据类型与运算符全解析-Python数据挖掘可视化分析
本文摘要: 第二章主要练习了Python基础数据类型运算,包括整数除法(-68//7=-10)、集合操作(并集|、交集&、差集-)、字符编码转换(chr(ord('0')+3))等内容。 第三章重点练习了Python的四种数据结构: 列表:创建方式(空列表、推导式等)、常用方法(append/extend/insert/remove/pop) 元组:创建方式、不可变性特点、切片操作 字典:多种创建方式、嵌套结构 集合:基本操作(交并差集) 编程题部分包含了对列表的各种操作:计算平均值、排序、位数统计
2025-06-05 23:19:05
510
2
原创 SARIMA时间序列分析:三大模型对比
本文探讨了时间序列分析的分解方法与建模技术。首先介绍了乘法模型(X_t=T_t×S_t×I_t),分别展示了趋势效应(T_t)和季节效应(S_t)的图示。随后比较了指数平滑法(X_t=(893.128+1.583t)S_j)和两种SARIMA模型的拟合效果。第一种SARIMA模型(0,1,1)×(0,1,1)12采用差分和移动平均组合,第二种(1,1,0)×(0,1,1)12结合自回归和季节性差分。通过RMSE指标对比显示,指数平滑法(7.665)精度略低于两种SARIMA模型(7.208和7.217)。研
2025-06-04 18:05:15
198
2
原创 工资统计实战:5步搞定数据分析(python数据挖掘)
摘要: 本文包含四个编程练习题,涵盖Python基础知识和数据处理。第一题计算员工工资的平均值、高于平均值的数量及排序;第二题处理学生成绩,统计高分人数、找出最低分学生并连接姓名字符串;第三题管理图书信息,按类别分组、统计数量并处理作者和编号数据;第四题统计兴趣小组报名情况,分析受欢迎的小组并整理学生名单。所有题目均要求使用Python内置函数和数据结构操作,涉及列表、字典、集合等数据类型的处理。
2025-05-30 10:30:28
310
1
原创 Python数据结构全解析:列表、元组、字典与集合
本文展示了Python中列表、元组、字典和集合的基本用法示例。列表部分演示了创建空列表、不同类型元素列表、列表推导式、列表操作(append、extend、insert、remove、pop)等。元组部分展示了创建元组的不同方式,包括单元素元组、嵌套元组等。字典部分展示了创建字典、字典推导式、字典合并以及常用字典方法(pop、setdefault等)。集合部分介绍了集合创建、元素操作(add、remove、discard等)以及集合运算(并集、交集、差集等)。通过这些示例可以快速掌握Python主要数据结构
2025-05-30 10:12:16
93
原创 第十章-家用热水器用户行为分析与事件识别
摘要: 本章基于家用热水器用水数据,通过数据探索分析发现水流状态记录数分布与流量分布特征。在数据预处理阶段,通过属性归约删除冗余特征,并基于时间阈值划分用水事件,采用斜率指标法确定最佳单次用水时长阈值为4分钟。接着构造用水时长、频率等特征,分析用水停顿事件与洗浴时间点分布。研究结果为后续用水行为分析及事件识别提供了数据基础,有助于优化热水器使用模式识别与节能策略制定。
2025-05-28 19:51:15
154
原创 第7章-航空公司客户价值分析
本文介绍航空公司客户价值分析的数据处理方法。首先进行描述性统计分析,计算各变量的空值数、最大值和最小值。其次进行分布分析,包括客户基本信息(入会年份、性别比例、会员等级、年龄分布)和乘机信息(最后乘机时长、飞行次数、飞行公里数)的分布特征。最后进行相关性分析,计算会员等级、飞行次数、积分等变量的Pearson相关系数矩阵,并通过热力图直观展示变量间相关性。分析采用Python的pandas、matplotlib和seaborn库实现数据探索和可视化。
2025-05-28 19:41:12
113
原创 Bootstrap法进行随机模拟
本研究对26名神经功能受损儿童的空间知觉测试数据进行了分析。问题一采用Bootstrap方法计算A组与B组得分的皮尔逊相关系数,得到点估计0.821,95%置信区间为[0.662,0.913]。问题二以B组为因变量、A组为自变量建立一元线性回归模型,回归系数a的Bootstrap点估计为0.656,95%置信区间[0.49,0.847],假设检验p值接近0,表明回归系数显著不为零。分析结果表明两组测试得分存在显著相关性和线性关系。
2025-05-28 19:34:53
489
原创 超市营业额数据分析
文章摘要:本文通过Python对超市营业额数据进行分析,主要完成了三项任务。首先,通过汇总交易额,推出了5名销冠员工。其次,分析了新领导上任15天以来的业绩总增长情况,并绘制了超市整体和每位员工的增长率图表,展示了业绩波动。最后,将所有柜台的销售额分为三个等级,进一步细化了销售数据的分类。通过这些分析,为超市的销售策略和员工绩效评估提供了数据支持。
2025-05-16 16:36:05
281
原创 ppt网站
PPTSTORE是一个专业的PPT素材下载网站,这里有大量的PPT模板、PPT图表、PPT作品、PPT动画等资源可以下载。OfficePLUS是微软的Office官方在线模板网站,这是微软官方出品,模板质量都试试比较优质的,而且种类齐全,不管你有什么需求,相信都可以在这里找到适用的PPT模版!”,首页非常干净整洁,没有广告,PPT模板详情页有一些普通的卡片的广告,不过并不影响PPT的下载,毕竟站长也需要维护的嘛。常规的PPT模板、PPT配图、PPT背景等等的分类都是有的,而且PPT模板的日期还是比较新的。
2025-04-02 23:39:28
5930
原创 列表表达式
列表表达式(List Comprehensions)在 Python 中是一种简洁且强大的工具,可以用于创建和操作列表。这些示例展示了列表表达式在处理各种复杂操作时的强大功能。你可以根据需要,将这些示例进行调整和扩展,以满足特定需求。
2025-03-07 11:00:56
96
原创 Python数据分析、挖掘与可视化(慕课版)学习资源包
PPT讲义:详尽的幻灯片内容覆盖了从基础到高级的数据分析概念,帮助你系统地理解和掌握知识。源代码:实践是学习的最佳方式。我们提供了课程中演示的所有案例的源代码,让你能够跟随动手操作,加深理解。数据集:真实世界的数据集用于练习,涵盖各种应用场景,使你能将理论应用于实践,提升解决问题的能力。加入数据分析的学习之旅,开启你的数据洞察之门。这份资源包将伴随你每一步,助你在数据科学的世界里不断前行。祝学习愉快!
2025-02-23 17:43:28
383
2
原创 Python数据分析、挖掘与可视化慕课版第2版学习资料包
1. **解压资源**:首先,你需要下载提供的`Python数据分析、挖掘与可视化(慕课版).rar`压缩文件,并将其解压到本地目录。5. **探索与创新**:在掌握了基本技能后,鼓励大家探索新的数据分析方法,对数据集进行更深入的分析或尝试自己的项目。- **源代码**:实践是学习的最佳方式。- **数据集**:真实世界的数据集用于练习,涵盖各种应用场景,使你能将理论应用于实践,提升解决问题的能力。4. **实战数据集**:用提供的数据集来实践所学的知识,不要害怕犯错,实践是最好的老师。
2025-02-23 17:37:24
147
原创 基于RFM聚类与随机森林算法的智能手机用户监测数据案例分析
基于RFM聚类与随机森林算法的智能手机用户监测数据案例分析摘要近年来,随着数字化和信息化的快速发展,越来越多的人开始使用智能手机。文章基于某公司某年连续30天4万多位智能手机用户的监测数据,通过随机森林与RFM聚类分析模型对智能手机用户的监测数据进行挖掘和分析,有效地统计和归纳了用户对于A类APP的使用情况,模型准确度达到了80%,同时对于智能手机APP的开发和使用提出了相应的建议。
2025-01-15 16:38:52
609
原创 矩阵方程组求解——Markov过程
D:\python\python.exe "D:\python\方程组求解.py"进程已结束,退出代码为 0。
2024-12-21 14:37:52
495
instacart-market-basket-analysis.zip
2024-10-24
(Auto)汽车数据集
2024-10-21
ROC曲线深度解析,“Breast-Cancer.xlsx” 数据集
2024-10-05
chinaMap中国地图基于HTML5,JavaScript,css实现
2024-10-03
PBIDesktopSetup-x64.exe
2024-09-22
Tableau安装包,资源获取不易,有偿获取。
2024-09-22
PanoplyWin-5.5.1.zip
2024-09-22
R语言地理可视化与线性回归分析:基于北京市高端酒店数据的空间分布与定价因素研究
2025-02-20
决策树回归LATEX编写-基于乳腺癌数据集实践
2024-11-25
不同自定义概率分布的更新过程
2024-10-30
fetch-olivetti-faces数据集
2024-10-29
Python分析假期对美国出生率的影响
2024-10-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅